mikeee 发表于 2021-12-28 14:13:22

双语对齐工具网页版radiobee aligner

本帖最后由 mikeee 于 2022-1-18 01:00 编辑

https://huggingface.co/spaces/mikeee/radiobee-aligner


《呼哮山莊》第一章对齐结果片段

工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。
界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。

也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。

网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。

radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。

wiray 发表于 2021-12-28 15:54:12

感谢分享!意思是以后会出软件PC版?

mikeee 发表于 2021-12-28 16:03:50

wiray 发表于 2021-12-28 15:54
感谢分享!意思是以后会出软件PC版?

有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。

wiray 发表于 2021-12-28 16:30:17

mikeee 发表于 2021-12-28 16:03
有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...

很好!期待!

Shiny2020 发表于 2021-12-28 23:23:46

似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!

mikeee 发表于 2021-12-29 10:37:40

本帖最后由 mikeee 于 2021-12-29 11:08 编辑

Shiny2020 发表于 2021-12-28 23:23
似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!

类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街{:6_135:},不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1{:6_130:}

Shiny2020 发表于 2021-12-29 10:41:26

mikeee 发表于 2021-12-29 10:37
类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...

哈哈哈,好的,等假期细细研究,谢谢分享。

louislaolu 发表于 2021-12-29 19:21:42

本帖最后由 louislaolu 于 2021-12-29 19:42 编辑

这么拽!那一定要试试。

louislaolu 发表于 2021-12-29 19:43:37

本帖最后由 louislaolu 于 2021-12-29 19:44 编辑

各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。

mikeee 发表于 2021-12-29 20:33:56

louislaolu 发表于 2021-12-29 19:43
各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...

术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待{:6_130:}

louislaolu 发表于 2021-12-29 22:50:12

mikeee 发表于 2021-12-29 20:33
术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...

哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?

mikeee 发表于 2022-1-12 11:23:19

本帖最后由 mikeee 于 2022-1-12 11:36 编辑


托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。

有兴趣的网友自己动手试试:

[*]点击   下载 txt 文件拖到 https://huggingface.co/spaces/mikeee/radiobee-aligner file 1 处
[*]点击 Submit
[*]点击对齐线图下面一点的对齐结果下载段段对齐 csv 和 xlsx 文件或在线查看对齐效果。


用时仅 3.2秒!

附上 epub 版

PS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

mikeee 发表于 2022-1-18 01:12:44

本帖最后由 mikeee 于 2022-1-18 01:15 编辑

https://huggingface.co/spaces/mikeee/radiobee-aligner
radiobee 对齐已经支持多种语言对并支持自动分离。

有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在data 目录里 https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。

周海龙99220 发表于 2022-2-12 11:06:57

楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢

mikeee 发表于 2022-2-13 18:14:50

周海龙99220 发表于 2022-2-12 11:06
楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...

感谢反馈。

有兴趣可以试试其他版本。都支持多语种
演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev
演示版乱序对齐!全元宇宙独家技术{:6_130:} https://huggingface.co/spaces/mikeee/ultimatumbee

周海龙99220 发表于 2022-2-14 09:06:28

真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?

mikeee 发表于 2022-2-14 12:16:24

周海龙99220 发表于 2022-2-14 09:06
真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...

不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
sent ali algo
None fast slow


None: 不分句
Fast:对齐分句的方法A,快一些但可能性能稍差一点
Slow:对齐分句的方法B,慢一些

由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。

周海龙99220 发表于 2022-2-14 20:12:05

收到,多谢,马上试验一番

周海龙99220 发表于 2022-2-14 20:48:58

mikeee 发表于 2022-2-14 12:16
不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项




社科类的双语材料对齐,完全可以适用。太感谢了
页: [1]
查看完整版本: 双语对齐工具网页版radiobee aligner