掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1866|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑
    7 `: |* c% q7 h" t
    ! E9 i5 e/ g8 |https://huggingface.co/spaces/mikeee/radiobee-aligner9 D: P) v7 j" Z, l6 X. G

    , h# H8 x9 |* U+ U% f* d
    3 A* D# S8 z" ^8 I  d, r《呼哮山莊》第一章对齐结果片段- T8 L  G! r+ E# v

    5 _7 u( u. O$ J5 r4 P8 A工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。
    6 _& z8 A9 [% j% }  D+ E界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。7 N" W6 z4 e$ U+ k% T2 ^! R

    7 K$ f4 I1 O* o& t& C4 o# I* f( r也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。* ?0 D/ [$ H4 ?( E8 J; Q

    9 G+ C' [) m+ S# T- {* H网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。
    ' {% v- G6 a; M" g% s  T
    ) k/ w; Z$ A9 A" ?7 q( Oradiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。
    / Y0 {* O6 t/ ^' L/ T

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    # J1 ]1 j0 f% g$ j+ S$ C+ ^* J感谢分享!意思是以后会出软件PC版?

    ; h7 @% Q2 F% F0 Q有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03
    & Z: _1 T7 j% l0 F; n有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...
    5 |$ i& @9 V( D) O% `
    很好!期待!
  • TA的每日心情
    开心
    4 天前
  • 签到天数: 498 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑 , N' `! ?4 k- k# l) b3 a- n
    Shiny2020 发表于 2021-12-28 23:23
    3 x, ?  j, v1 j7 O* I似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!

    0 t( i' \1 D. u
    + M0 ~8 R' |8 T0 S, }$ [! L& r类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    4 天前
  • 签到天数: 498 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37+ `2 i; a' m& g  e  n9 {
    类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...

    ( i6 b0 D+ c8 S+ u& q哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 1 u, b( {' b9 v
    0 G" s' I, a  |! Y9 k5 k
    这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑
    ; R* ]/ S5 ]5 ^$ U8 l0 D
    7 B9 C/ \8 z( H5 ?# |9 Q各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43
    * `" _# w; {- N  }' y% m9 N' R+ R' Y* r各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...

      L0 H, L8 n) y术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33
    ; a- L1 C% ]5 R- A2 Y$ M( s术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...

    2 s5 R6 y$ O! l1 M' X5 e哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑
    / r4 b5 u: E5 M: |3 G' Z) q, Z0 |2 x" d1 t& I5 f- s5 @4 p
      
    4 X. z! [1 I, ?0 G' b1 N1 L托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。
    : n# C) J7 z' K
    + R+ }' H" F* T- K* k有兴趣的网友自己动手试试
    / |# u3 [" K' V6 }  g* l9 z/ v- [8 |, s9 T
    0 x( l6 v1 Q4 [3 J/ A
    用时仅 3.2秒!
    ' N* i2 N/ V/ O! `
    . U% b0 M5 T, h! e附上 epub 版
    ( |4 X$ k, _5 D# \' r  q
    - r! }  d2 k( x2 G- U. ZPS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑 ; k5 I) ~0 l9 l+ F' v6 }) n7 u5 B

    ( z, s8 k8 |5 u" _ https://huggingface.co/spaces/mikeee/radiobee-aligner ) T; }2 O$ j  W* ?/ [* k" f  c
    radiobee 对齐已经支持多种语言对并支持自动分离。5 y/ u+ }- a/ f' a5 w
    - v9 ?, r9 F4 L  a
    有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:06
    ' S9 P# k/ L7 G7 P楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...
    7 n, N, @" E0 j4 H& }# ?# d; [
    感谢反馈。! p6 i1 x8 B9 P. `8 |
    6 F7 w$ L- Y1 C9 @# _
    有兴趣可以试试其他版本。都支持多语种2 M$ E3 |; p0 x( R6 b3 d* R& Z5 [
    演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev+ @: ^8 |4 P+ J8 V
    演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06
    $ S3 L, U; f& _真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...

    0 t" x. z. j# H$ j不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    ; }& C  Q$ g$ `/ V/ h; P+ G
    1. sent ali algo1 h8 b3 }. r! o& X) [1 |
    2. None fast slow
    复制代码
    6 F5 M, N6 V' N( S" A

    " ?* J. ]5 I* w
    ! ]1 C7 ^/ i: z2 a& M5 c; YNone: 不分句/ a- `! ]+ ~, W1 w3 n* L
    Fast:对齐分句的方法A,快一些但可能性能稍差一点* g" V7 z, |4 E% O
    Slow:对齐分句的方法B,慢一些. h- x' G0 C+ }3 f2 G) ?

    ' T. `! a# ^9 ?0 a: Q由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。 5 ^* e) T* G: y6 Q% l- v8 E
      

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16( ~5 H! B; }  }3 y# _) ]0 a
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项8 D/ e' _- h. j6 `, \, H
      
    0 o) g1 p+ v2 U% F$ v
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 07:17 , Processed in 0.063528 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表