掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1928|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑 8 |, {; R3 I: Z4 V6 [* D8 \2 r

    5 ^& J$ j$ n. {https://huggingface.co/spaces/mikeee/radiobee-aligner
    * b! T$ Y$ Y  R9 g5 D - y9 S& x9 k) Y, T" V- F2 `

    1 b# F. T$ |3 W; r《呼哮山莊》第一章对齐结果片段: }( c; J0 h$ O1 t( ~
    . }: {( h9 V* p! M7 j! f
    工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。
    : R+ `9 F  A7 N! ]$ e( _" {* K界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。
    4 p- H9 |% S6 \/ h; ?+ A1 G# l
    ; a% K9 o5 E) v$ f' ]. u也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。6 D8 U, I' X- @# r- Z+ d3 \

    8 m( s% O, Y3 s  q网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。
    ; O) i5 Y) i2 l4 g# }4 P- r1 Y; m2 [/ R" H
    radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。
    2 N, y/ ~" j+ T9 r' J! |

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    / d$ j* F! E0 {' M- L- X; ?感谢分享!意思是以后会出软件PC版?
    9 z0 j! d  K6 u" e; Q& z
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03( u/ t( L4 u& L* m0 x0 h5 q) t, j
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...
    + {, C8 C8 ]! [1 d& h2 x- S9 p
    很好!期待!
  • TA的每日心情
    开心
    2024-5-9 10:36
  • 签到天数: 507 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑
    * _8 h# a, N* G! O" B
    Shiny2020 发表于 2021-12-28 23:23- ^; r4 S! v4 ~9 F( M$ u- f! I' ^
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
    , X% h5 ?4 G8 k' A4 Z' T

    - @! w5 |9 N4 z4 S类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    2024-5-9 10:36
  • 签到天数: 507 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37
    - y- y- ^  m' v5 G3 G类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...
    6 |/ o& L& ?9 D- M' z
    哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 . ]1 @; v* r: ?! d  i- m& w

    & Y# w  O# Z- {4 B' ?$ |1 E这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑
    7 d' @$ L* ~; f5 x9 y0 u5 ^" J; D4 c# n
    各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43% m" U' c9 V- [0 \7 \! z
    各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...
    $ h# L( v. @2 @3 C# N
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33
    ( w$ U! {, ?+ w8 q( a$ v' \术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...
    $ A$ e, h% f& }% ~
    哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑 % i4 y. R2 h, c3 @

    ! _* O# h+ T9 M( D! \  4 E0 ~9 M# |) k
    托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。* o0 |0 Y2 A& d" r5 Z
    ) b+ h! b2 Z! Y! w
    有兴趣的网友自己动手试试
    $ a: \  y0 y! x/ k+ ?
    # \4 @# x0 o- l
    0 D# m7 d7 B4 t+ K- J4 j用时仅 3.2秒!, I- v- Z( I' x  N% k; L

    * i0 v  n$ j3 X% B附上 epub 版
    3 k! n. h7 n8 C( [/ Q. s/ O  R4 i0 b) s: {9 u% [: T; u
    PS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑
    : W4 f$ T5 j5 `7 X5 W9 g+ V' R' G( @* `
    https://huggingface.co/spaces/mikeee/radiobee-aligner
    : g7 X% d) D5 dradiobee 对齐已经支持多种语言对并支持自动分离。* @* N& S! a; F, t

    - [* _* @3 Q: p4 b  X1 y6 \0 p有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:06
      l( [% {. L( [5 a. d楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...
      C! \& Y5 H" e5 i7 U) z% t6 V
    感谢反馈。
    $ t' c3 @8 r1 R$ s9 }1 |; ]5 v$ C* e8 P# P' y8 v( C# P* v
    有兴趣可以试试其他版本。都支持多语种9 J" Y' Y; u# t; q
    演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev
    9 c# F; K+ F* F( A% j1 @演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:06, c4 Z7 F& D, A5 Z7 D2 o
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...

    / a( L: v* d) R2 C" v不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    , |# u- Q6 C# |
    1. sent ali algo
      * P$ |' ^2 y1 n! D
    2. None fast slow
    复制代码
    , K% m- Z  A9 b2 e- w' L2 t  M" U8 Y+ c
    - U& @: W9 l+ b6 ?8 ~/ o/ w- n, ]2 C

    / y* Y  m1 _: f* k, Q8 T( xNone: 不分句
    . a" B3 G; [0 yFast:对齐分句的方法A,快一些但可能性能稍差一点
    + c* U3 h' U1 V8 ?Slow:对齐分句的方法B,慢一些; K0 G- k; `% m+ J

    % c; y7 w( o" M9 v! C: T, I& P" ~% q$ @由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。
      d, C0 c  v  n0 X4 {* o+ p  

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16
    4 _. |5 ^8 D2 C1 Z8 X不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    ! i3 s+ ~8 U# r& N8 ^5 q: y$ w" B  

    3 g1 {8 R3 h/ w2 L# V) R9 K社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-23 10:55 , Processed in 0.066752 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表