李北辰:机器翻译,人类能否驯服自己创造的语言?

上世纪二十年代,翻译界发生了有名的“牛奶路”事件。翻译家赵景深先生在翻译契科夫的小说《凡卡》时,因不了解原文中的古希腊神话背景,将“银河”(Milky Way)按字面意思错译为“牛奶路”,闹了个大笑话,从此“牛奶路”便成为错译的代名词。

随着时代的发展和全球化加速,不同语言文化背景的人们交流越来越多,翻译的需求也越来越重要和多样化,“牛奶路”的错误依然层出不穷。在机器翻译已经一定程度上普及的今天,我们能否利用机器翻译技术的优势,满足大规模、复杂多样的翻译需求,绕过不同文化背景带来的理解藩篱,重塑“巴别塔”,进而终结几千年来人类语言互不相通的历史呢?

  数据红利

谙熟机器翻译发展史的人都知道,冷战期间,美国获得了大批前苏联的资料,但苦于翻译员不足,只好寻求机器帮助。1954年,IBM展示了一个基于6项语法规则和250字词汇表的计算机翻译系统,可将60个简单的俄语断句直译为英语,政府非常激动,开始拨款大力支持机器翻译,有乐观派科学家宣称:“三年之后机器翻译一定非常成熟。”

如你所知,这种思路很快被证明是错误的。人类无法驯服自己亲手创造的语言,语言仿佛古灵精怪的小姑娘,变化极其灵活,哪怕同一单词,在不同地域,文化,语境甚至情绪里的意义也迥然不同。IBM的单词配语法无疑过于鲁莽,直至上世纪90年代,IBM都还在投入大量资金试图挑战机翻,无奈收效甚微。

而在不少专业人士看来,经过多年发展,现如今,机器可以较为准确地理解每一个句子的意思,但若想真正做到流畅准确的翻译,还必须解决两个问题:调序和消歧。不同语言有不同语序(譬如在英语和德语里形容词放在名词前面,但在法语里通常相反),机器需要做到根据不同语言的表达习惯调整语序。另外,单个词汇,尤其动词常有多个语义,譬如汉语的“做”,你得让机器知道,做作业和做内啥是不一样的。

好在人类握有数据。尤其近些年来,随着互联网的普及和高速发展,数据规模呈爆发式增长,机器翻译因此受益,取得了不错的进展。

  耐心等待

当然,你得承认,“进化”还需要时间。与专业翻译相比(所以短期内专业翻译还不会失业对么),机器翻译至少在三个方面还有待完善。第一,如前所述,目前机翻主要以句子作为翻译单位,缺乏对篇章知识的全面理解,翻译结果在前后文的统一连贯性上有时还显得颇为无奈,如何研究“篇章级”的翻译模型是个问题;第二,倘若将机器视作生命,那么处于襁褓之中的它还缺乏对人类常识和文化的充分理解,你知道,翻译一般分为直译和意译,在需要意译的时候,机器多选择笨拙地直译,译出的句子常让人倒吸一口凉气,所以如何充分发挥互联网优势,利用“群体智慧”更好地获取人类文化,让机翻更加符合母语表达习惯是个重要的问题;第三,宏观层面上,机器翻译作为计算机科学,认知科学,信息论等多学科交叉领域,其他学科的研究成果对于语言理解建模和翻译建模都有借鉴意义,如何持续探索全新的翻译模型和方法也颇具挑战。

在我看来,机器翻译若能攻克以上三点,而你在文字上又是一个“功利主义者”,只求稳准狠,不求信雅达,那么机译一定会很好地满足你。当然,对于那些基本属于“二次创作“的文学翻译而言,至少在现阶段,你若想奢求机器能将“In me the tiger sniffs the rose”译为“心有猛虎,细嗅蔷薇”,可就有些过分啦。

此外,对于机器翻译的苛责还包括情感方面。你知道,哪怕同一句话,由于人类非常不确定性的情感注入,也会带来语气的千差万别。然而,就像一位评论者所言:“中国人可将‘你吃了么’这样的简单问句问出千回百转的意味,而机器则只会将其翻译成‘Have you eaten?’或者更加拙劣的‘Do you eat?’。但实际上,哪怕是精通双语的人员,往往也很难区分非母语一方语言中的细微情感变化。”

对于机器,我们还需要耐心等待,何况我们已经窥见了机器翻译为人类社会带来的变革。

  应用场景

可以肯定,从离你最近的出国旅行,到互联网上的外贸,电商和金融等服务的国际化推广,对不少如我这般英语糟透了的人而言,语言障碍是一个天然痛点。

就拿出境自由行来说(毕竟世界那么大,每个人都想去看看),翻译软件几乎成为标配,而在更为具体的应用场景上——譬如点菜,机器翻译的角色则显得无比重要。嗯,去国外吃饭最忧伤的并不是价格,而是面对餐单时一脸无助,最后点什么菜只得听天由命。西餐餐单少有配图,且不同于中餐“三鲜丁儿”“四喜丸子”这些菜名,西餐菜名一般都直接标注原料与做法,哪怕你英文还算不错,挑出心仪菜品也颇具挑战,这时候,你可以打开翻译软件用摄像头拍摄菜名进行翻译,当然,你最好选择性拍摄,以避免看一遍菜单就花上个把小时的风险……

除了自由行,在更加广泛的应用领域上,则可以通过翻译API的二次开发,实现机器翻译的大众化使用,从而在经济层面激发巨大的商业价值。就拿百度翻译来说,其通过免费开放API支持了超过7000个第三方应用:华为将带有翻译功能的手机销往法国等30多个国家和地区;甚至有俄罗斯购物网站用其将淘宝的商品信息翻译为俄语,为俄罗斯人民提供代购服务……

嗯,人类对不同民族之间无障碍交流的渴望远早于发明计算机的时间,而这一点在宣称自由互联的互联网时代更能彰显它的价值。

其实在我看来,机器翻译技术的真正意义,就如同搜索引擎,致力于让所有人平等便捷获取信息和服务。只要有网络,搜索引擎使得在北京的孩子跟在遥远山村的小孩获取知识的能力是一样的。机器翻译无疑与搜索引擎有着类似的特质,它使在地球任何一个角落的人不再受语言不通的束缚,自由交流和获取信息及服务。

文/李北辰(微信公号:future-is-coming)

分享给您的好友:

您可能还喜欢…

1 Response

  1. 有道周枫:未来三年,神经网络翻译将满足90%以上的翻译需求说道:

    耶和华说:“看哪,他们都是一样的人,说着同一种语言,如今他们既然能做起这事(建造巴别塔),以后他们想要做的事就没有不成功的了。”——《圣经》

    《圣经》用巴别塔的故事解释了人类语言复杂性的起源,但是,千百年来,虽然面临重重阻碍,人类从未放弃过建造巴别塔的愿望,从职业翻译的出现到国际语的出现都是如此。

    智能时代为跨语言交流提供了有力的武器——AI。机器翻译大大降低了翻译的门槛,并且,当下众多科技公司都是免费提供这一服务。如果要评选一个离大众最近的人工智能产品,机器翻译绝对不能忽略。

    以时下用户量较大的微信为例,在微信中长按文字,可以进行实时翻译,这就是大众以最简便的方式能感受到的机器翻译。网易有道正是微信的翻译提供商之一。

    机器翻译这一已经“飞入寻常百姓家”的AI技术有什么特点?最近的技术焦点在哪?当下国内外的市场格局如何?未来会走向何方?带着这些问题,新智元近日独家专访了有道CEO周枫。

    周枫先生现任网易高级副总裁,网易有道CEO。周枫在清华大学取得计算机科学学士和硕士学位,在加州伯克利大学取得计算机科学博士学位,曾在多个顶级国际学术会议和期刊上发表超过10篇论文。周枫加入网易后,主持有道词典开发、有道搜索平台架构、有道云笔记和密码认证系统“将军令”开发等,将有道词典打造成了份额第一的词典与翻译产品,用户量超过6亿。目前,周枫带领有道的NMT团队攻坚基于人工智能的神经网络翻译(NMT)技术,并开始进军在线教育领域。

    今年网易有道十岁了。

    从创办有道开始,周枫已经带着有道团队经历了中国互联网发展的两次重大变革,一次是移动互联网的热潮,另一次就是今天的人工智能热潮。

    2009年,移动互联网热潮到来的时候,周枫决定,“必须要把计算机的那根线剪掉了”。有道团队的动作很快,有道词典移动版上线后,迎来了巨大的用户红利。

    而对于这次人工智能热潮,周枫表示,这对于企业来说,可能是一次弯道超车的机会,但如果不小心,也许会成为掉队的开始:

    “AI和移动互联网的变革将会带来共同的结果,都能够大幅提高用户体验,带动大量新技术被采纳。同时,AI将会带来终端数量的激增,就像移动互联网的终端数量比PC时代暴涨了十倍一样。

    在这场AI的变革中,企业如果能抓到用户需求和技术的好的结合点,就可能开拓并占领一些新的领域。而企业本身的优势业务领域,如果没有及时调整,很容易就会被别人吃掉。”

    翻译这个有道的王牌领域,是周枫决定攻占的第一块人工智能高地。

    翻译的巨头之争:翻译质量和用户交互是制胜关键

    互联网的江湖永远充满着硝烟。最近几年,神经网络翻译这个新概念,把机器翻译这一潭静水搅起了风浪,加之整个社会翻译使用量的快速提升,翻译这个原本小众的业务,突然站上了风口变成了互联网巨头重点发力的对象。他们都想借助神经网络翻译这一新技术,打破翻译市场的旧秩序,从中分一杯羹。

    面对谷歌、百度、科大讯飞等这些强劲的对手,周枫表示,已经为这场市场争夺站准备好了充足的弹药。

    “国内的机器翻译市场,最大的两个供应商是有道和百度,其他的厂商包括海外厂商在内,普通用户的使用占比其实很小。

    有道是国内最早推出机器翻译系统的互联网公司,在语言翻译市场中早早地站稳了脚跟。从移动端来看,有道在国内翻译市场的份额超过50%,在词典这个领域,有道的市占率超过了70%。

    在周枫看来,要在巨头的翻译之争中继续保持领先,关键在于两点,首先是需要不断创新提升翻译质量,其次是怎么把自然交互这件事情做好。这两点经验来自有道翻译官的用户增长,2015到2016年的一年时间内,有道翻译官的用户量提升了三倍,这其中有翻译需求增长的因素,更重要的是原因是产品交互的改变:语音翻译和拍照翻译两个场景化很强的功能,成为产品的主打功能,用户对这样的交互方式感到很兴奋。

    谷歌、百度等很多企业都用了NMT,笔者曾在网上做了一个小测试:谷歌和有道能把“一百一”翻译成“one hundred and ten”,但是百度翻译是“one hundred and one”。

    对于这样的结果,周枫表示,单个例句的翻译结果其实无法说明准确度,翻译和语音识别、搜索一样,需要大量数据评测。具体到“一百一”翻译不准确的原因,周枫认为,一方面是翻译总数据量的原因,另外一方面也因为垂直语料算法没经过专门处理,比如数字、日期、人名就需要专门算法处理,如果依赖总体数据库翻译就会不完全准确。

    “所有自然交互系统都是很复杂的,不存在教科书式的用某一个办法一下子就把所有问题都解决了的情况,需要专门处理。这也反映出团队在这一领域中的经验和积累。”

    利用这一垂直领域的算法处理经验,有道正在把神经网络机器翻译技术迅速商业化。

    不少有垂直领域翻译需求的大机构找上门来,希望有道能提供精准高效和更加场景化的翻译服务,并且,他们非常乐意付钱来做这件事。有道智云正是这一翻译技术合作的入口,支持API接口,同时能够追踪用户翻译行为,了解用户翻译使用情况。

    对新技术催生的新商业模式,周枫兴趣十足。“金融、医疗等垂直领域的翻译需求其实非常适合用机器翻译去解决,有道比起海外公司更了解和接近中国市场,所以这也是我们很感兴趣的一个方向。”

    准确度对比:BLEU盲测中,比谷歌NMT更胜一筹

    对整个翻译行业来说,2017年是充满变化的一年。不仅国内的竞争者相继带着神经网络的翻译技术走向市场,谷歌翻译也在3月重新回归中国大陆。翻译的准确度,自然成为衡量技术水准最直观的标准。

    出身于清华和加州伯克利这两所顶级院校的计算机专业,周枫的身上有着深深的技术烙印。谈到准确度,他更喜欢用数据说话。

    他用国际通用的BLEU评测把谷歌和有道的中英互译进行了的对比。BLEU(双语评估研究-Bilingual Evaluation Understudy)是一种用于评估自然语言之间机器翻译的文本质量的算法,它是与人类质量判断高度相关的指标之一,也是最受欢迎的指标之一。“机器翻译越接近专业的人文翻译越好,这是BLEU背后的核心思想。”BLEU评测输出百分数,该值表示候选文本与参考文本的相似度BLEU值越高,代表翻译准确度越高。

    有道的这次评测采用了盲测方式,即评测采用的例句数据对开发者保密,更不会出现在模型的训练数据中。同时,由于语言在不同的场景下表现出很强的多样性,这次评测针对翻译引擎不同的使用场景(学习、新闻、口语、用户日志)采集不同的评测数据,分别作出评测。结果显示,在以下语料类型中,有道的翻译准确度均高于谷歌,并且最高能超出谷歌8个百分点。

    2017 年 04 月 27 日评测结果

    学 习
    新 闻
    口 语
    用户日志
    翻译方向
    中译英
    英译中
    中译英
    英译中
    中译英
    英译中
    中译英
    英译中
    有道NMT
    29.45
    33.05
    27.86
    37.33
    20.78
    23.78
    31.92
    51.98
    其他国际NMT
    21.64
    25.39
    19.76
    31.27
    14.60
    19.69
    29.12
    47.62

    周枫介绍这一成绩时说:“现在机器翻译的准确度并不像大家想象的,能够达到90%这种级别的数值,因为 BLEU 通常只以一个答案为参考,而翻译实际上可以有很多答案,因此要完全准确是非常难的。即使人工翻译的BLEU值也无法达到百分百,一般也就50-60%。”

    NMT法宝:自适应模型和两大机制——注意力机制、覆盖度

    是什么样的技术优势,让有道在BLEU盲测中的结果更胜一筹?

    周枫把这归功于有道的领域自适应模型和两个机制——Attention(注意力)、Coverage(覆盖度)。

    首当其冲的是领域自适应模型,即针对特定领域用特定模型做翻译。

    用户的需求是是多元的,比如有人想查时政新闻,有人要查医学知识,若想要用一个模型来覆盖所有用户需求,必然会影响翻译的准确度。机器翻译中的领域自适应模型是指,若想要让翻译质量更好,需要给它更多垂直领域的数据,更多的平行语料。有道对于一些特定领域有单独的模型,系统会判定语料适应的领域,分配不同的模型进行翻译。

    此外,NMT的两个重要机制之一是,Attention(注意力机制)。

    Attention机制最早在图像识别取得很大突破,2015年引入到NMT中,它跟人的思维方式很像。现在业界的机器翻译几乎都基于Attention的模型。

    其基本思想就是目标语言端的词,往往只与源语言端部分词有关。Attention机制的引入,可以使模型在每一步注意到源句子中不同的部分,从而提高NMT的效果,该效果的提升对于长句子的翻译尤其明显,并缓解Encoder-Decoder框架中将源语言压缩成固定维度向量带来的问题。它能保证从前到后,翻译结果的不同部分对应原文的相应部分,这样就能表达比较复杂的概念。

    Attention虽然大大提升了机器翻译的效果,但是仍然不够完备。

    Coverage(覆盖度):翻译的内容完整覆盖原文

    在实际应用中,有道还为技术模型加了一个“Coverage(覆盖度机制)”。

    Coverage大约是2016年提出的,所谓Coverage就是要衡量翻译结果是不是比较完整地覆盖原文想要表达的意思。NMT最初的模型有一个比较大的问题就是——有时候他会漏掉某一部分,也可能会多出来某一部分。因为神经网络模型会对语义信息和语法信息同时进行建模,往往会混在一起。机器并不知道自己漏了东西,因此要引入Coverage(覆盖度)的概念。

    所有深度学习网络都是一个优化问题,就是让训练算法去优化整个网络,使得在某一个评价标准下得分最高。如果这个网络得分最高,那训练完之后,就拿这个网络来处理所有的问题。

    因此,在训练中间加入覆盖度之后,最后得到的网络就倾向于选择覆盖比较完整的模型。翻译的内容多了少了,模型都会管。神经网络模型是一个很强的语言模式,会从大量的语料里生成结果。如果不加入Attention或者Coverage等机制,机器可能会生出一堆很顺利的文字,但是不一定符合翻译的原意。这两个机制能够使它更好地呈现原来的语义。

    不惜成本的数据投入,占据语料优势

    深度学习模型的性能提升通常依赖于数据量的大小,神经网络翻译模型也是如此。

    周枫觉得,比技术模型更关键的,是有道这十年来累计的语料数据。“我们在中文语言方面有长期的语料积累,相对其他厂商,我们在优质数据量上具有压倒性的优势。”

    互联网是有道NMT最主要的数据来源。网上有大量中英文的句对和网页,特别是新事物、新概念,网上能够找到最新的英文原文和对应中文,而算法会去判定和筛选最准确的对应翻译。例如像有道词典的网络释义功能,就是通过分析网页来得到一些新词的解释,比如deepneural network(深度神经元网络)这样的新词就很快能查到准确翻译。

    同时有道也有线下的语料数据源。有道会投入重金以合作的方式专门订制高质量的语料数据;此外,有道还有一支超过3000人的兼职人工翻译团队,每年的翻译量超过一亿五千万字。在刚刚过去的苹果WWDC 2017大会上,有道人工翻译就为大会提供了同声传译服务。这些都奠定了有道的语料数据优势。

    NLP和机器翻译的挑战:疯长的计算量和语义鸿沟

    作为一个技术型的CEO,周枫经常是某个新技术最早的观察者和探讨者,他很清楚NMT未来将面临的挑战。

    机器人可以识别文字,却没有思维。翻译最终还是涉及知识储备层面,如果一个翻译者仅仅懂语言,却没有背景知识,是很难去理解语言表达的真正意图。可以预见到,在某一个时间点,机器表层的翻译能力会超过人,比如词汇量,整体通顺度,但是缺少思维能力会导致机器无法翻译出更深层的语义。

    疯长的计算量与芯片处理速度的矛盾。随着模型越来越复杂,数据越来越多,模型迭代的速度会变慢,训练时间就会出问题。“为什么GPU(图像处理器)这么流行,因为它能大大缩短训练时间。如果未来数据量激增,可能一屋子GPU都不太管用了。”

    据报道,谷歌前段时间在乌镇的围棋对决上高调宣传并公开出售CloudTPU,声称其能够解决GPU训练速度的问题,并能在神经网络的计算之外执行TensorFlow程序。它能否解决处理速度的问题?对此,周枫的看法值得业内人士借鉴。

    “深度学习比较有意思的一个特点是大量时间集中在少数几种运算上,比如最关键的计算是矩阵乘法,TPU的架构就是为矩阵乘法和累加优化的,这样就可以大幅提高深度学习的性能。但是,英伟达新的GPU也对矩阵以及Tensor的运算进行了针对性的优化,所以综合考虑两者之间的绝对性能以及性价比,并不一定是TPU占优。”

    机遇和挑战总是同时存在。那么,机器翻译和人工翻译的距离还有多远?

    周枫表示,在未来三年,机器翻译应该能够满足90%以上的翻译需求,但不包括文学创作、商业合同等场景,那依然是人类的领域。

    在机器翻译尚不完美之前,有道的NMT团队给了有高标准需求的用户另一个选择——有道人机翻译。NMT+译后编译结合的模式,可以让翻译成本降低50%,并且翻译质量能够达到标准水平。

    但愿这一次,周枫和他的NMT团队,能在人工智能的浪潮中再次续写技术奇迹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>