掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4539|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑 & D4 @0 x) \* D+ L7 q4 v# d/ \

    + e5 w' L8 Q6 S* A' Whttps://huggingface.co/spaces/mikeee/radiobee-aligner/ M* Q" b& R2 B3 k) \+ {
    5 a* q" b( H' `' A6 ^' w; \0 ~: g

      y/ ?. n& R, W' _5 h《呼哮山莊》第一章对齐结果片段5 [: S! d3 o! _( n( Q0 z  \

    1 n" M) j! I; B9 n; A4 v4 r工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。
    $ V; o  `5 b1 Q5 {界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。! i( Y$ b! u9 F  ~- g  Z

    % j0 V" O6 l) C3 D+ L也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。! K& t. e; P  v7 t/ ]1 U
    ) V1 `: ^7 W9 e  p* G
    网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。, O5 z9 `3 p8 F
    ! r, ^5 a9 j) U( f# X) D% x' ]1 {/ n
    radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。
    : X, B$ Q0 s* V

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情

    2025-6-19 17:53
  • 签到天数: 643 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    " T4 S3 X9 u4 d% G: q$ z感谢分享!意思是以后会出软件PC版?
    7 S; V2 h& |. S6 _* d( C! k+ z, K
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情

    2025-6-19 17:53
  • 签到天数: 643 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03. n7 F1 _. X7 `) o$ A
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...

    0 \' J9 ?& q% e" I/ u: n0 w很好!期待!
  • TA的每日心情
    开心
    2025-5-27 10:16
  • 签到天数: 560 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑   T! V0 Y6 Q; Y  A/ `
    Shiny2020 发表于 2021-12-28 23:23
    9 j7 x9 N  q$ Z3 d. G, U0 S似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
    - Q* R3 |3 d5 ^2 a0 o1 r1 n

    & r' S' K3 x+ h7 C类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    2025-5-27 10:16
  • 签到天数: 560 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37& f, l- |4 q& H- q: Z: R) W% H* v
    类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...
    / J2 L/ ^0 X1 O3 f/ W
    哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 5 ^; I/ a+ Z8 Q# k& {# x6 k* Y- u& c

    9 \% q+ t' P& p4 w9 B这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑
    ; a& Q$ J+ n: v: m% V1 Y! e
    ; j& X, n& v  b* H" ~3 x各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43
    * M, O1 \3 U# u. P" e各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...
    2 T& G  b! |# s" O4 _2 @: w
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33
    3 t) d- A* N0 A5 E) }术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...

    / s$ c- _" Z' I0 \哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑
    . D# N) `0 Z6 g5 k' b  V, G% F9 P( X/ C9 B; U) h1 g2 G. B; c
      
    + n! s- m/ C/ I0 q+ D, ^托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。
    " q" L& g& [) }+ N/ R! j: j  K
      u8 J: C: L/ {# I5 O有兴趣的网友自己动手试试+ k( r8 ]( S( H; k% Q1 ?2 c7 n9 Y
    - ]  g& F% [; D# U

    6 U5 q& G9 v& c  o2 u用时仅 3.2秒!( V: Z8 S1 ]$ N1 w7 L/ A# a$ H1 q
    1 N" p% V7 i/ {; ^
    附上 epub 版 0 L* u+ H9 D# B5 @. |6 B
    ) t  Z% o+ @; Q0 X& m! o$ X
    PS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑 % I% u) F7 Y' i" K6 w9 e9 a) ?
    ) c) [- i- T2 U) C
    https://huggingface.co/spaces/mikeee/radiobee-aligner   P6 m+ B0 w1 p2 L4 X6 s/ [+ [
    radiobee 对齐已经支持多种语言对并支持自动分离。
    5 y6 I8 X- e7 Y4 }
      C+ ?' }: J! v0 J2 q( W7 E有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:064 t* R; ~# N, H5 G! r. n1 r: P5 d
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...
    & B9 H: Q! N1 G% a
    感谢反馈。
    / ~: m% m7 V: V& a1 v! s- x! L2 u
    - A  f" P$ ^( r1 }, x8 G有兴趣可以试试其他版本。都支持多语种
    / v7 Q, o$ L9 f8 k2 u7 C) Y1 R  D$ }演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev
    * A( x. Q# H! y1 M/ C/ V( O演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06; ]! |/ B$ \* W8 ?/ b# S5 Z# l
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...

    9 p7 e7 J& }4 }+ ^不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项) U3 l- g2 g. b
    1. sent ali algo/ b  \$ L: \* Y3 H2 y+ o
    2. None fast slow
    复制代码
    7 E) d. W$ D1 B& A& O8 r  Z

    , q) E" ~/ @! A4 j3 k7 r. \( w$ C
    6 G# ^7 C9 r3 HNone: 不分句) x7 J! T( R2 e; K
    Fast:对齐分句的方法A,快一些但可能性能稍差一点
    ' P) T7 D- r& s* MSlow:对齐分句的方法B,慢一些1 h* Q9 z. o  ~- N% J( l2 Z$ l( x  O* _
    . z# K8 s7 |% U' m# F& F
    由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。 + U. V" B+ ~. i2 f  ]
      

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16. @5 i+ D5 f* _. X; u9 t
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    6 h, w+ h% s: O4 N$ u: V/ c  
    + j: L- x: E4 P2 V1 }
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-9 06:33 , Processed in 0.023813 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表