掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2966|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑 ! m! ~7 e/ b6 K: G: |
    3 r2 `+ g6 m+ S) h
    https://huggingface.co/spaces/mikeee/radiobee-aligner  ]/ M7 f, F1 c& i4 E5 j: E" R

    ; s  v1 M0 G  X1 v0 y* h' V% r; p9 d9 o2 g
    《呼哮山莊》第一章对齐结果片段
    ( r+ J: \( T* Z2 Y; ^8 U
    1 m( U* E1 w( Q- o工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。
    ; g/ d* w) |# q) k+ n, w1 S3 M界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。
    1 a6 b5 f3 L& c- r, N+ d
    2 J7 y! H1 K6 F; r6 B0 f也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。
    0 Y7 ^# Z% {' h- t% `5 A
      i+ v1 x3 y! ^) ?+ q, R9 D网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。4 Q3 a0 Y( Y& ?  i* u) k

    ( d. y: ~5 b6 p3 D' c) q% C8 ]radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。. G+ e2 W- y9 N# [

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情

    2025-1-9 17:52
  • 签到天数: 642 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    ( ?1 O. X7 A. d) ^6 r; y9 f感谢分享!意思是以后会出软件PC版?
    1 F& f' W9 m) s: e1 [2 N
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情

    2025-1-9 17:52
  • 签到天数: 642 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03
    * @- x% D- Y7 n% Z, x9 G有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...
    - i+ o1 e6 K3 c7 |4 _: C1 l( {
    很好!期待!
  • TA的每日心情
    开心
    2025-2-24 20:24
  • 签到天数: 559 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑 % W) U1 r2 t- m8 z& t( J
    Shiny2020 发表于 2021-12-28 23:23
      ~: X9 ^0 R0 `似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!

    4 W7 P4 h9 A$ v! E; p' y" \0 Y
    % T. P4 g. M! Q% o, I/ t5 i类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    2025-2-24 20:24
  • 签到天数: 559 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37
    / ]1 g: i: p! u0 p% V9 D类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...

    8 y; ]6 Y# Q. q& G; f' `1 `哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 0 H, M! Z3 {3 F! W

    6 v& C% R% q0 |, r这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑
    7 ~; q" X4 M, D, O! j
    ' L1 L2 q8 b# I% b- e8 U1 ]6 {各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43
    7 i8 |8 {! q9 i; k" u各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...
      S7 {$ @' t' n4 ]( _
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:331 x6 Q, W7 C* @* _& \/ _
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...
    2 `" N7 U3 V2 W
    哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑
    - |/ }# g- f. H: {7 h. G  Y  r; f, U5 n# p8 z
      ( {5 W. x9 H  b) O, |
    托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。# n1 |' p% U6 C: O- B

    ' p* n' R7 h! |. ]6 m7 ^有兴趣的网友自己动手试试
    & W, Z2 C1 R4 M
    ) H6 W# n6 b! J5 N" n3 O" a8 r$ Z8 p
    用时仅 3.2秒!7 B- f7 [/ G1 n

    ; G8 b- i- ]5 m0 s9 w# H$ ]7 }附上 epub 版
    . |' `9 `3 C9 |
    # E8 o5 }! j+ e: h/ j* N4 IPS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑
      f8 f. d  L; f6 i- S8 [6 `% F, u; Y% |1 m+ z) Z* k
    https://huggingface.co/spaces/mikeee/radiobee-aligner
    . W) n9 L7 Q7 r& A% X9 L8 J- pradiobee 对齐已经支持多种语言对并支持自动分离。
    8 M/ G1 q5 f4 P2 l0 X3 u5 j5 c$ U
    9 X$ b3 ]  ?& A  i有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:068 @  ~& o, Y: D; C: ^  r( f
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...

    ; ^0 W) Y, R5 w  ^% O感谢反馈。
    ; m8 A2 P" \+ p( m5 _3 H. E3 k5 x1 j( W2 `8 x; H, g
    有兴趣可以试试其他版本。都支持多语种
    / s/ [. g  x8 B) @  H演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev" C+ J; ?" a$ K8 [6 t6 e
    演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06+ L2 q6 v9 s/ o3 C/ |
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...
    # d" |5 P# w" z4 f: L
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项  L( O, {9 K% e; r7 T$ B
    1. sent ali algo
      ' E( d" H- v. ]( ~- B2 P
    2. None fast slow
    复制代码

    6 q1 A& u' d7 o& P* K$ _
    4 ?! x' ^) ^: A. J
    + w6 e# _0 y$ @; S) i. nNone: 不分句6 }9 ~1 C  M* `! e- c; u+ u
    Fast:对齐分句的方法A,快一些但可能性能稍差一点
    7 k  [5 h* z# L5 a: ]4 ?0 bSlow:对齐分句的方法B,慢一些" j1 L) R& {0 ?, D8 C2 M2 Y4 [) {
    - m6 f# U8 x% H3 T4 m% c7 F
    由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。 9 w3 J) Z4 A0 Z; d0 U9 [6 ^0 w  S
      

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16
    1 J6 G8 f7 K9 D4 r- z, v不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    4 l" R$ u9 m$ ~* x0 k) g  
    * |6 u) r; p( W, t
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-5 09:02 , Processed in 0.024084 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表