掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 505|回复: 0

[闲聊吐槽] 跨越专业翻译的语言之墙:百度翻译的技术攀登

[复制链接]
  • TA的每日心情
    擦汗
    2022-12-14 14:46
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    发表于 2022-12-6 10:39:58 | 显示全部楼层 |阅读模式
    作为一个科技从业者,阅读AI顶会的最新论文、浏览国内外创新的最新动向,是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等,工作生活中也涉及大量专业阅读。/ E# u, j9 ?0 H
    % H4 m. I; \) b, o: Q8 F/ t
    于是乎,我就会经常听到这样的抱怨:: s( F" X0 B0 O. k! Z  P3 A
    ' o( x/ j' K4 o' j6 \% \% V: C* ~
    PDF格式的论文,很多翻译软件需要手动复制粘贴,效率还不如直接查字典;
    1 p' ]. E0 v( i% }: F( i. E; n
    不动脑子按段落甚至句子直译,信达雅一个都没有,机翻完我还要花时间二次review;' H2 D  z% X" V* ]" C0 m5 ~

    2 b9 n( y" k0 f+ r) o/ J海外开发社区的技术文档专业词汇太多,翻译得不准,好几天的代码都白写了……5 H8 g% U9 q: K; M

    2 j- G6 F1 R* ]9 E4 w' ]) S4 Z% }这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步,机器翻译水平也大幅提升,结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求,很多产品还是不能满足。; I$ G6 \) W( B" Z) E- j$ v
    1 w- a5 R2 U4 J0 w* v6 n8 N% m

    6 o) |0 g. c2 M这些问题说明,总体可读可懂,满足出国旅游、购物娱乐等日常沟通的场景,只是机器翻译的基本功能。进一步的市场需求,是深度专业内容的跨语言交流,让商业、科研、技术等专业信息可以实现无缝对接。
    $ ^( s: ^9 ]6 T9 _
    ; o3 U- r5 N" Z% Z, p+ m跨越这堵语言之墙,也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队,从来没有停止过攀登的脚步。
    " i" D8 i& ~4 R* Z! s7 ?3 C7 k. R% r0 F6 [, ^
    我们从机器翻译的新技术动向说起,聊聊百度给机器翻译带来的新可能。0 X! I! E; Q" C6 ^9 _0 {8 `6 R
    1 h- p: f7 v7 M  \1 o* W0 O
    机器翻译的技术攀登:百度引领NMT革新! ]9 t! S4 Q4 W0 A  r5 k

    ! j* o3 F) d8 a/ ^( t  O# G3 r跨越语言之墙还需要哪些技术突破?想要回答这个问题,有必要先回答:机器翻译今天发展到哪一步了。# ]4 E( E4 j* p( h7 L9 H! z

    5 Y5 l1 P) \' l3 V过去几十年间,人们一直在探索如何使得机器翻译达到人类的翻译水平,翻译方法不断迭代。基于规则的机器翻译,依靠人工编纂的双语词典和专家总结的规则进行翻译;基于实例的机器翻译,从双语对照的实例库中选择与原文相似度高的实例,通过模仿和修改进行翻译;基于统计的机器翻译,对翻译过程进行数学建模,并从大量的训练数据中自动学习翻译知识。, I! g# D- V  r/ E9 p
    * r8 u- U/ d% W; t3 H
    变革发生在2014年,通过循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的神经机器翻译(NMT),为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用,百度翻译在2015年发布了全球首个互联网NMT系统,领先谷歌1年多。现在,大家用翻译软件进行日常交流、旅游商务等活动,已经基本没有问题了。
    . P& J8 d- U2 G8 r1 x5 G( r( v2 E' Q0 O! c
    2 I% z: H! _, F9 B
    而专业领域的翻译想要令人惊喜的进展,总的来说需要做到两件事:2 b! g% ?6 g0 h  y

    - K5 j, z- d: G1 w& `一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多语言统一建模和翻译;3. 面向垂直领域的高精度翻译模型。其中,百度作为更早进入NMT时代的科技企业,就在机器翻译技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将百度翻译列为神经网络机器翻译标杆机构。
    2 _5 e- L+ b1 t: m8 ~* B  E: q$ d& x8 i3 i* q1 J
    二是产品设计。技术有所突破,还要通过成熟的产品设计和应用体验,让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强,但由技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文档、图片、语音等多模态翻译,全方位满足各种翻译需求。百度翻译的产品优势,让普通用户可以低门槛、更便捷地用上专业机器翻译能力,目前日均响应的翻译请求已达千亿字符。2 j) {* e# ?. ?1 h

    % N; L& S& F# j7 X; O' Q" ~- T# i从这个角度来看,百度翻译是国内少有的,能够同时占据技术和产品两个机器翻译高地的科技企业。那么,百度翻译究竟是如何翻越专业翻译的语言之墙?
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-3 01:58 , Processed in 0.019407 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表