掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1945|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑 3 F! V3 ?6 _0 P
    ( Y  U4 ?8 B% Q( h( n% K) O
    https://huggingface.co/spaces/mikeee/radiobee-aligner
    # j3 w! U0 h9 `
    8 ~$ m, H- {' _# z& ~! A
    & w1 m5 C  I+ X2 P' A1 E5 o- y1 j《呼哮山莊》第一章对齐结果片段9 F! L* s+ Q% Z+ k* \3 H
    5 x# F3 `: R9 a/ l1 \3 i/ M; d
    工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。6 j, J; f4 u9 \8 M
    界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。
    # W0 t& ~" A% w. r) t% o' q& H  I: B# e/ \: v& S, L) F
    也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。, W+ b# R" K8 _6 D
    % O' ?3 `9 T7 f0 a0 v& m
    网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。* ~2 j3 f( K4 p, [. F2 a
    . w9 R& l. R# I1 X: M
    radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。8 C5 M. v; i! S6 h

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2024-5-25 17:17
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:544 @2 q4 X: i6 T2 V
    感谢分享!意思是以后会出软件PC版?
    " b- A9 l9 r. u' X) Q0 r1 w
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情
    开心
    2024-5-25 17:17
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03
    : s5 ?/ Y4 ?% C( l" G* ]+ G( ~有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...

    # B9 h, T4 K  T7 _2 @% p& O* A很好!期待!
  • TA的每日心情
    开心
    昨天 11:21
  • 签到天数: 509 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑
    * c4 a/ @6 x' t9 f( |8 T4 V8 S; \
    Shiny2020 发表于 2021-12-28 23:23
    : y2 x# Y& f0 h3 L似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
    . m; l7 N, c; k7 ^+ {9 }" w8 R5 P

    9 K3 |  R4 }$ R类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    昨天 11:21
  • 签到天数: 509 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37
      C( \7 q: q: y& {类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...

    ( y3 Z& M( B8 }& [# Y8 m哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 ' Z& w  ]" ~7 s! J6 o4 O3 ~+ n+ x
    ' ~# c* N' D8 \4 x
    这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑 + B- g6 g; w4 c$ i" v) K! H

    5 A! Y7 c" o) w各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43
    ( I3 F7 @5 K# ?  p5 V- n) u各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...
    8 Q" X; t5 e! g5 b! T, ?
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33
    , i6 J$ V3 W! b+ U, o: T术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...
    3 D! P( z3 j1 B/ v% c7 N
    哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑 6 e# w) e, X. t  X; N: ^* x5 p9 e% D9 H

    9 `/ S* R: X  x) u  ! ^* ?7 o: R: i2 X5 V" E9 t1 z
    托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。. D: F4 Q; z( ]

    2 c8 r) i- a( x9 f2 X9 z/ z有兴趣的网友自己动手试试
    9 E5 ~/ i& T: ^: Z% J: b; ?- N( Z8 N* m& j6 O0 W* G
    " _% ~, r7 E0 P3 {
    用时仅 3.2秒!. E/ n  d7 ]; g+ s0 F$ @

    9 V( @/ u( T( I; p# n# |% E$ `附上 epub 版 % j, o. y8 g/ G* N

    : y- |: ?2 r$ C! k  z8 oPS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑 ' c' [6 K: V* M' c) E; m- v

    0 o* S# P. @9 i; { https://huggingface.co/spaces/mikeee/radiobee-aligner
    # X  }" \0 v3 c! H) r% C7 Eradiobee 对齐已经支持多种语言对并支持自动分离。; J( q; v$ N( a/ Y5 K5 B
    , j6 t2 k/ C$ ~' v
    有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:06/ k0 Y3 h* G8 A. ?
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...
    3 N* [' u2 q6 m7 P# G  N7 _
    感谢反馈。
      |9 K0 a1 o. D3 n5 d3 D! Q" C9 _) ~
    有兴趣可以试试其他版本。都支持多语种
    4 @# M  K* K$ @; m2 A演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev4 e* Y/ j! d/ h' B8 |  s; _9 M
    演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06
    ' f2 j8 Y7 _7 i9 b8 R: P  j( ?! ~真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...
    ; ~/ e3 [! z8 u
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项. I* b" m2 ~9 s& {. \$ G* c% J
    1. sent ali algo
      : g) @$ y: V" }, ~; v: `8 k- p
    2. None fast slow
    复制代码
    $ z- }: ~) \. I7 _: \0 Z( E

    $ @  {; h7 B7 L  `) d( F* x( [- b: N: J  L
    None: 不分句6 X2 h# ~3 D" q8 j. H9 U' G
    Fast:对齐分句的方法A,快一些但可能性能稍差一点$ F1 Z, r) L+ p
    Slow:对齐分句的方法B,慢一些
    ( a/ L7 z4 c# [1 {- V- `
    8 ~( e+ h: m5 \; J; z由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。
    ( K( K6 A* A6 s; H7 z  

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:163 ~3 Z, x. m6 C2 W! P
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    ! y! l# ~; h% R9 O4 I  

    + |5 l( H. I+ T1 G1 W% F6 r5 W# b社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-4 06:35 , Processed in 0.067672 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表