掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1874|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑 6 u1 E5 W# ^1 o7 A2 K' ~' x5 S

    - k% j, [* Y! ]* R3 k  N7 ehttps://huggingface.co/spaces/mikeee/radiobee-aligner
    9 R' R$ r. Z3 |
    ( ]; A- M- _( Y. l/ C
    ' j; U, \3 m7 @5 y5 `, G《呼哮山莊》第一章对齐结果片段* U. J7 Q& v0 y& D* `" w9 C/ s

    , M$ c/ Q  ]! W1 K工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。0 W: p2 F  ]( T. n
    界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。
    0 D3 q; B( S+ J" r$ ~% {) b& n/ p$ ~. X: o  j
    也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。
    , h4 ]" V; \) f, ?  S
    . V4 A. z  m& L. w网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。
    ( _  a' M( v7 [9 e. r2 B. t& R9 W6 k. p5 y7 F3 K/ s
    radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。" P' n) W1 \( u6 X: h! e

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    * _. d6 j/ y2 C/ i感谢分享!意思是以后会出软件PC版?
    - G9 i; ^3 P; t! t, m0 u& X
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03. ?# I% \3 y3 n& e  n
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...

    9 L0 b# Y" g1 {  _) \! H- r很好!期待!
  • TA的每日心情
    开心
    5 天前
  • 签到天数: 499 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑 & T6 X  D+ {" t& P8 F5 X; R
    Shiny2020 发表于 2021-12-28 23:231 B$ I3 D9 W& e1 h
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!

    + U; j) j" g  d! n; B
    * Y, |) O2 i" X: A8 p; `( u类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    5 天前
  • 签到天数: 499 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37; g+ C" N: T4 J, t( O+ ^- I
    类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...
    * {9 T4 ?: F2 {! V# Z- ?
    哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 8 m' K! f  y9 m1 c2 d  n& l2 }/ W  O
    : P8 p9 \5 T( ~+ o% Z9 P$ r0 p
    这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑 1 ~6 R, x. U4 N6 r6 @

    , d9 X2 x" ?( j+ G; s" H) E1 n各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43- r, W1 r1 t% W( ~* u
    各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...
    . A2 g! j0 s& k0 p/ A
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:337 W% J0 ^5 x1 V# u* o& `
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...

      l9 I# |! }4 E. A哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑
    2 p% h, v9 E/ N, v$ x; j/ \$ }" @. f2 u
      
    * o: Q5 J3 F+ q; `托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。
    & U) f' s6 F9 |- v3 Q9 E! F
    ) g4 n, L! r  v0 l# C% e9 i有兴趣的网友自己动手试试4 {  m& f- a3 i# E% K9 |( F" _; F
    ' |3 P& q  ~7 J' g* l

    8 T( y' k+ T- Z8 f  N3 |" s用时仅 3.2秒!
    % y3 J# g- \2 s+ ^  N8 _/ T1 u8 T
    , h5 \& ]. Z6 }  M9 L0 E附上 epub 版
    $ q5 ^% j% V0 `! g0 ]" ?- J# S/ o
    ) v1 P$ L  _2 s3 O: ^! H2 HPS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑 1 d& \: _4 v; I: b4 }8 @( ?1 N
    & z. Q) B( X4 Y4 U% C6 t& C( i1 u
    https://huggingface.co/spaces/mikeee/radiobee-aligner
    , B5 W2 l5 h: Sradiobee 对齐已经支持多种语言对并支持自动分离。/ s* u+ o. l0 [
    " y! `+ M. ^8 ~3 b. W+ B
    有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:06
    . y6 j6 ~8 q6 x( c7 @! l% Q楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...
      f3 K' B9 l% g9 f9 U- M6 y- {$ r
    感谢反馈。
    8 m  p5 F, Z; q; X1 F9 A3 Q  ]3 x" {( z1 u# p
    有兴趣可以试试其他版本。都支持多语种
    ) @4 U: x/ Y1 S演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev' q/ |0 _) o9 e' I7 g. S
    演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06& v$ c4 |% O6 ~4 C3 g
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...
    6 e! a- d0 Y4 u1 }
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项6 k  G" t5 Q5 L6 {2 R5 T/ r+ L- A
    1. sent ali algo
      6 W% o5 F  X- C: B5 i" K+ o
    2. None fast slow
    复制代码

    1 \4 e) `/ m; J8 }3 P! z; ~' t8 h, e5 g% e  Y, J$ ~% Y

    ' p1 w8 K! x6 j1 w4 {! c: \None: 不分句
    6 o( ~. T/ o+ H- w1 e( X/ V: FFast:对齐分句的方法A,快一些但可能性能稍差一点& B. r: V3 [& j6 r3 `% ~" n
    Slow:对齐分句的方法B,慢一些8 J3 @5 F. l: {; N# j. F1 l+ `6 I

    / t3 p( N% \0 W+ B$ N$ w* R由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。 8 Z3 A: T$ a0 h! |4 ^. c+ ?
      

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16
    + I6 {6 T" o; Q) W. z不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项! B  g& N) R8 {& s( d8 A
      
    $ w# a) {  O4 p- [" [
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-24 00:26 , Processed in 0.162578 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表