掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1946|回复: 18

[索引] 双语对齐工具网页版radiobee aligner

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2021-12-28 14:13:22 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2022-1-18 01:00 编辑
    1 L/ i5 |  F+ C8 I3 p4 `- j  g; M7 p% v. M& y' Q- D6 \5 T3 S
    https://huggingface.co/spaces/mikeee/radiobee-aligner* E5 n3 O" O* K+ _& Z; U% X

    . M6 \  B  A9 B, `$ V3 b
    - o2 ]: e/ z7 n- _《呼哮山莊》第一章对齐结果片段
    ' h3 T1 t- Q* l  v4 J0 F5 q3 Z2 z% x3 ~2 }2 o
    工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 上传文件。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。9 \3 G& s6 k6 i$ @& P
    界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。
    7 [- f' k( g( N# G  t/ r" y( J% R+ V1 `1 l/ w8 T; m2 z$ C* Y
    也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。8 A  N4 X* D) G5 f* F' a* j- \

    6 U6 K) R3 V2 d/ g' I网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但仍需注意去掉文件里的敏感信息。0 d3 d# L2 R3 z2 ?" J! E
    * D) m& g. a5 \
    radiobee aligner和 Abbyy Aligner 无任何关系。radiobee aligner全部源码(除了一个文件外)可以在Huggingface网站点击Files and versions(https://huggingface.co/spaces/mikeee/radiobee-aligner/tree/main)查看。
    0 c: X! }) Q  @) c# g# R

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2024-5-25 17:17
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-12-28 15:54:12 | 显示全部楼层
    感谢分享!意思是以后会出软件PC版?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-28 16:03:50 | 显示全部楼层
    wiray 发表于 2021-12-28 15:54
    6 q7 y6 l- Z: P$ r7 L感谢分享!意思是以后会出软件PC版?
    4 z4 p* q: a/ V- m( ^8 z( n0 u
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好像很困难,所以最终得回归桌面app。
  • TA的每日心情
    开心
    2024-5-25 17:17
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-12-28 16:30:17 | 显示全部楼层
    mikeee 发表于 2021-12-28 16:03% x5 a/ b" p: z% [6 J2 Y
    有这个打算…… 因为自动对齐后手动交互编辑好像是不可避免的,不可能做到100%准确。网页版做交互编辑好 ...
    : c  ^" g- g) Y4 D
    很好!期待!
  • TA的每日心情
    开心
    昨天 11:21
  • 签到天数: 509 天

    [LV.9]以坛为家II

    发表于 2021-12-28 23:23:46 | 显示全部楼层
    似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 10:37:40 | 显示全部楼层
    本帖最后由 mikeee 于 2021-12-29 11:08 编辑
    . X3 f3 u3 j9 \" U5 K$ I) ]: r+ m
    Shiny2020 发表于 2021-12-28 23:23
    0 U; \; E% p4 G, A* }似乎有类似产品,但是终归是躲不开手动调节哒,人机相互协作!

    4 O/ y$ J. i/ a9 r$ W
    + e/ G# J; J: {类似产品里A bbyy Aligner可能是最优秀的。不过 radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下https://huggingface.co/spaces/mikeee/radiobee-aligner Examples 里的shakespeare500及红楼梦ch1
  • TA的每日心情
    开心
    昨天 11:21
  • 签到天数: 509 天

    [LV.9]以坛为家II

    发表于 2021-12-29 10:41:26 | 显示全部楼层
    mikeee 发表于 2021-12-29 10:37
    ' @% c$ H5 [+ r7 K' \! i3 o7 O5 k8 Y类似产品里Abbyy Aligner可能是最优秀的。不过 radio aligner基本上可以甩a bbyy aligner几条街 ...

    ! W" p- d8 U3 P6 @( H9 v哈哈哈,好的,等假期细细研究,谢谢分享。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:21:42 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:42 编辑
    . Z: h( }. _& r# t) X) N2 D6 J8 P4 U
    ' @% C( U% m6 J# N6 f5 L; n这么拽!那一定要试试。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 19:43:37 | 显示全部楼层
    本帖最后由 louislaolu 于 2021-12-29 19:44 编辑 & Z0 I; J7 a( Z7 a! v: Z) d9 j
    4 v! m2 A5 F, L7 e( p4 p) x) _
    各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2021-12-29 20:33:56 | 显示全部楼层
    louislaolu 发表于 2021-12-29 19:43
    7 ?6 _$ G. v0 w5 |各位大咖,有没有靠谱的双语术语提取软件给推荐下,尤其是能够处理英汉对齐语料那种。 ...

    / B. ~( V6 a& h, F术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner https://github.com/cisnlp/simalign 做这事的,不过速度很慢。我做完radiobee aligner或许做个数据提取工具。请期待
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-12-29 22:50:12 | 显示全部楼层
    mikeee 发表于 2021-12-29 20:33
    ; Y; n/ [! O4 m: c" x: e术语提取其实是另一个层次上的对齐——找对应的词组对。句句对齐后再做,有个python包叫 simaligner http ...

    $ i% W  Y2 G5 d* w; c哈哈,就冲你这句话,我对2022已经满是期待。提取工具用什么办法把词汇层面对齐的术语和一般词语区分开来?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-12 11:23:19 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-12 11:36 编辑
    # i3 }& I0 b) _  R3 z8 c6 y, W5 r. k2 e( j4 L6 y
      $ J; D9 f6 P' ~& ~1 B4 m& K
    托马斯·潘恩《常识》 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。
    # }/ W- c( V& q" r$ A# H. t5 y3 a6 E5 n% B
    有兴趣的网友自己动手试试
    . ?( e: c; V" R+ O8 U
    $ }' q& L8 s1 @7 o1 J/ W, Q4 |# Q7 B; u# y, Q2 \
    用时仅 3.2秒!4 U# O) ]! W1 g' u3 Z
    9 f+ v9 O4 D, n/ M. Z  J1 a
    附上 epub 版 - Z5 E# _* p% k1 r4 c$ F* ~9 R
    " f( J5 n& S! [: h, r$ i
    PS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-1-18 01:12:44 | 显示全部楼层
    本帖最后由 mikeee 于 2022-1-18 01:15 编辑 : U% [! |! {- x5 ?7 X# v
    - Y0 U1 L" ~2 T  {$ r
    https://huggingface.co/spaces/mikeee/radiobee-aligner
    # v6 S. z  Q8 O; \: ~# d5 \$ Qradiobee 对齐已经支持多种语言对并支持自动分离。
    ' y& q- i) H# K4 w6 F9 G/ w
    8 A' c/ f! T; M& ^有兴趣的网友可以从 Examples 表里选定 德中 日中 对齐的例子,再点击 Submit。对齐一本书只需 30 秒左右!所有的测试文件都在  data 目录里 https://huggingface.co/spaces/mi ... gner/tree/main/data ,可以右击文件名下载。不妨用 A bbyy Aligner 对齐及比较一下结果。
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-12 11:06:57 | 显示全部楼层
    楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-13 18:14:50 | 显示全部楼层
    周海龙99220 发表于 2022-2-12 11:06
    . P' D  l2 P5 U5 q& n楼主真是太厉害了,我用了之后,感觉比国内的在线对齐质量高很多啊,特别是在小语种的准确率上面。多谢多谢 ...

    # D- v/ S" \0 V; \0 l感谢反馈。
    7 ~; E+ k) r% N
    ' M6 @. j, ~* I# [有兴趣可以试试其他版本。都支持多语种
    8 n/ Y) T. _3 i4 R- Y. |演示版句句对齐: https://huggingface.co/spaces/mikeee/radiobee-dev
    * {0 n) x& s# a4 [* [演示版乱序对齐!全元宇宙独家技术 https://huggingface.co/spaces/mikeee/ultimatumbee
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 09:06:28 | 显示全部楼层
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧?
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2022-2-14 12:16:24 | 显示全部楼层
    周海龙99220 发表于 2022-2-14 09:065 g0 O! y8 z: g9 a  Y, F
    真的智能,可以节省很多精力。想请问句句对齐是需要自己先把文本处理成一句一句的对吧? ...

    ) l0 b( q/ y+ a! P( {2 J" D不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项( _3 a/ I1 z) Z9 D
    1. sent ali algo
      # }/ C  p" [$ I# \  o
    2. None fast slow
    复制代码
      Z; y2 @6 l! x
    3 ~. S8 B) z& A* n6 u

    8 W2 Y; X' k; J! S% d$ C! h7 hNone: 不分句  H. A2 a, D: ^' P# m
    Fast:对齐分句的方法A,快一些但可能性能稍差一点& C7 i% `8 B- R+ @# r
    Slow:对齐分句的方法B,慢一些' u* S. |, u7 j# |  x5 w
    , `+ v) v# g) u5 F! ]
    由于分句用的是一个不可定制的方法(例如,有些人可能希望在分号处分句),有特殊需要的分句就需要自己分句后作为段段对齐(选None,预设)或用 一些 的段段对齐。 0 r. _5 C# t; {4 b1 o
      

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:12:05 | 显示全部楼层
    收到,多谢,马上试验一番
  • TA的每日心情
    开心
    2022-3-5 22:04
  • 签到天数: 88 天

    [LV.6]常住居民II

    发表于 2022-2-14 20:48:58 | 显示全部楼层
    mikeee 发表于 2022-2-14 12:16& Z% V; a2 o3 n. a6 |4 ^  T
    不用自己处理, https://huggingface.co/spaces/mikeee/radiobee-dev 下面有个选项+ A% ^% `4 r2 ~
      
    2 C: V" V8 V& o) p+ R9 g7 n) p
    社科类的双语材料对齐,完全可以适用。太感谢了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-4 19:23 , Processed in 0.066940 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表