掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1912|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑
    : @) I0 Y1 ]' U6 Q) X) F9 G$ Y/ P5 F5 m; R% b0 ]
    https://huggingface.co/spaces/mikeee/radiobee-aligner/ K9 O0 U) G& f. d
    2 m; s* m  N9 `
    8 `/ B" v6 T0 D8 p( W
    《呼哮山莊》第一章对齐结果片段
    & a! t& l8 C; H% h/ g8 r& V- q! E1 {9 n
    工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。& P" N/ w8 S- m8 e5 ^4 ]  q4 R
    界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。6 k  o0 u! r3 {: U0 N
    1 N. F; P& K) P& \) j3 V5 W9 d! m
    也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。
    0 o1 F. Y9 D4 D2 R% g% E
    - q* n/ D$ C3 u. F网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。4 Y. K7 P! c9 }  R3 Y

    2 B, B/ @  r) ~radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。
    6 g2 n. @- G, \4 A0 |8 ^% r

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    3 u; n* w  [4 B+ v. X' U/ {感谢分享!意思是以后会出软件PC版?
    5 h# C0 J# c7 f0 t6 o' b
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情
    慵懒
    2024-3-22 22:25
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03  l( k, j$ c6 `' I
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...

    / Q4 T7 L: q; G9 P# E很好!期待!
  • TA的每日心情
    开心
    前天 10:36
  • 签到天数: 507 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑
    8 ?4 E# N7 K) I' X
    Shiny2020 发表于 2021-12-28 23:23# p8 L4 r& m6 D
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
    5 x5 V- T) X' B! G7 ]8 Z

    % M" Y9 X; z, K% w& O! j9 g类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    前天 10:36
  • 签到天数: 507 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37
    * Q: i( D' k6 d' G" Z类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...

    5 q, s% S" }4 H6 ]哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑 0 h. T! ]& J; T1 j# y" Y

    3 u: s0 Y7 o2 y这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑
    % p/ O: C2 X" k' F1 \# y7 E# N) f& ~
    3 Z4 B) t( R2 g各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43
    8 [5 O+ ]( l; s' S" L各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...
    / \# H" f# a: O/ M0 E
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33, e8 ^4 ^- b) O) T, x6 z
    术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...
    " @6 y6 a! _) y7 k$ q
    哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑 0 @0 i( b) \# ^
    : n/ K% F" J! ]1 y9 q8 [' e7 S# k/ O1 S' }
      : c2 N+ D$ }; \$ v+ ~; @  p
    托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。! l9 t0 B- z2 [. |
    . A4 a* T1 v, W# p4 e) E
    有兴趣的网友自己动手试试1 h  _1 p( \7 b, }8 p

    % x2 a2 |+ v9 M, |( y5 g2 \! m" w/ l( U& Y4 n
    用时仅 3.2秒!
    + |, G; f& Q- r3 h* H$ k( Q& ?# R6 X0 f' s  U3 Z9 h1 Z
    附上 epub 版
    ; J, p! l# R2 Q- Z4 x. E( g; b) P& i% H6 Y3 q" o1 `* K" w
    PS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑
    7 h8 B0 B9 J% z1 D/ |+ N. {, m) u% Y1 O" u( d' a* n- S
    https://huggingface.co/spaces/mikeee/radiobee-aligner 8 |% c, g; {3 w
    radiobee 对齐已经支持多种语言对并支持自动分离。
    + u- j) Y! J! R6 C0 d% g& |  k! N1 V+ E
    有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:061 I% D9 g% ^. u0 T0 ?9 x
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...

    ( R) r: c/ z6 v$ d- R感谢反馈。7 E( T' y, i. N  o
    # R  n" {' W. J; {( A% X( v3 k
    有兴趣可以试试其他版本。都支持多语种
    ' \3 y1 w" w  Y7 O6 ^( K: Y演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev
    + w# W* f8 m/ p, S演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:065 ?. l- F! Q1 {8 ]/ m
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...
    ! N; `# J: ~) n4 `1 T
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    - y) m9 ]; ?1 ~5 l- K2 i! B
    1. sent ali algo
      0 r& [& D+ K7 n' X( K3 z8 Q
    2. None fast slow
    复制代码

    ! X" W# m; `# d+ U! ?" `0 X. o1 I
    0 L$ s- J7 }4 B; h% G
    2 s3 r9 a3 M3 ENone: 不分句
    $ n6 a' B4 M  {1 i3 k/ TFast:对齐分句的方法A,快一些但可能性能稍差一点
    ; s, r4 ?' P% h1 L) oSlow:对齐分句的方法B,慢一些
    5 X7 n, }7 V' q& y$ e/ C- Q1 I: k: t0 |$ |- e' q3 P# C
    由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。
    % w, o2 H6 P8 g' k- O  

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16
    5 r1 {+ g. Y4 f+ b8 _7 Q0 X/ G- f$ Y不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项
    2 o- i* Z0 B" W  
    9 B  M5 @2 {: G
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-11 15:26 , Processed in 0.071768 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表