漏译的原因是什么,如何解决这个问题?这方面有很多工作,下面我就从几个方面去讲一下。我们今年有一篇论文从数据方面去分析。我们发现漏译与词语的熵成正相关关系,这个词的熵越大,漏译的可能性越大。它所对应的目标语言词越多,概率越分散(熵越大),越有可能被漏译。左边的例子,S1对应3种不同的翻译,(s1,t1) (s1,t2) (s1, t3 t4),它的熵就比较大。我们把所有对应的翻译统一替换为一个特殊词『stoken4s1』,以降低词语翻译的熵值。右边呢是我们提出来的三种方法,去改善翻译结果,包括pre-training, multitask learning, two-pass decoding。大家有兴趣的话,可以去看论文。从实验结果来看,相比Transformer,在中英翻译质量上有显著提高,高熵值词语的漏译比例显著下降。数据稀疏第二个挑战就是数据稀疏。相比于统计机器翻译,这个问题对神经网络翻译而言,更严重。实验表明,神经网络对于数据量更敏感。针对数据稀疏问题,我们提出了一个多任务学习的多语言翻译模型。在进行多语言翻译的时候,源语言共享编码器,在解码端,不同的语言,使用不同的解码器。这样在源语言端就会共享编码器的信息,从而缓解数据稀疏问题。后来,加拿大蒙特利尔大学、Google等在此方向上陆续开展了多个工作。实验表明,我们的方法收敛更快,翻译质量也明显提高。更多细节,请阅读论文。这篇论文是2018年EMNLP上的best paper,提出了一个统一的框架。A)里面蓝色的点和红色的点分别代表两种不同的语言句子。如何通过两种语言的单语数据构建翻译系统呢?首先我要做一个初始化,B)是初始化。首先构建一个词典,把这两种语言之间的词做一下对齐。C)是语言模型,基于单语数据,可以训练语言模型,用来衡量这个语言的流利度。那么D)是什么? D)是一个称作Back Translation的技术,是目前大家常用的一个用于增强数据的方法。用B)初始化后构建的一个词典,就可以从一种语言翻译为另外一种语言,哪怕是先基于词的翻译。然后,用另外一种语言的语言模型去对译文进行衡量。然后把得分高的句子挑出来,再翻译回去,这一过程称作Back Translation,然后再用原来那种语言的语言模型去衡量这个句子好还是不好。这样一轮一轮的迭代,数据就会变得越来越好,系统翻译质量也会越来越好。引入知识第三个挑战就是引入知识,如何将更多丰富的知识引入翻译模型是机器翻译长期面临的挑战。这个例子中,中文句子中『横流』对应到目标语言端是没有翻译出来的,用一个特殊的记号叫UNK(Unknown Word)来标记。那么我们做一个什么样的工作呢?我们引入了几种知识,第一种就是叫短语表或者叫词表。如果发现『横流』这个词没有被翻译出来,我们就去查这个词典,这个词典就作为一个外部知识被引入进来了。同时,那我们还引入了一个语言模型,语言模型去衡量目标语言的这个句子是不是流畅。同时,我们引入一个长度奖励特征去奖励长句子。因为句子越长,可能漏掉的信息就越少。这个工作首次将统计机器翻译中的特征引入神经网络翻译,可以作为引入知识的一个框架。但是目前来说,引入知识还是比较表层的。知识的引入,还需要更多更深入的工作。比如说这个例子, 这个句子是存在歧义的。『中巴』 在没有给上下文的时候,是无法判断『巴』是哪个国家的简称。但是下面的句子,有一个限定,“金砖框架”。这个时候,人们就知道该如何翻译了。但是,机器能不能知道?大家可以去翻译引擎上去验证。因为人是知道中国跟哪些国家是金砖国家,但是机器没有这个知识。怎么把这个知识交给机器去做,这是一个非常挑战的问题。还有一个挑战,是可解释性:神经网络翻译到底是神还是神经?虽然人们可以设计和调整网络结构,去优化系统,提高质量。但是对于该方法还缺乏深入的理解。也有很多工作去试图研究网络内部工作机理。清华大学有一篇文章从注意力的角度去进行研究。比如左边的例子,出现了一个UNK,那个UNK是怎么产生的,它虽然没有被翻译出来,但是出现在正确的位置,占了一个位置。通过Attention对应关系,可以看到这个UNK对应到『债务国』。右边例子是一个重复翻译的现象。神经网络机器翻译除了经常漏翻译之外,还会经常重复翻译。比如说出现了两个“history”。那么通过这个对应关系我们就可以看到,第6个位置上的“history”是重复出现的,它的出现不仅跟第一个位置“美国人”和第二个位置“历史”相关,还跟第5个位置“the”相关。因为产生了一个定冠词“the”,模型认为这个地方应该出现一个“history”,这篇文章对这样的例子进行了大量的分析,并且给出了一些分析结果和解决方案。如需进一步了解,可以看原始论文。还有第五个挑战 ,是机器翻译长期以来面临的挑战,语篇翻译。大部分的翻译系统现在所使用的翻译方法都是基于句子,以句子作为单位,一个句子一个句子的进行翻译。单看这三个句子翻译还可以接受。但是连起来看就觉得生硬不连贯。语篇翻译还有第五个挑战 ,是机器翻译长期以来面临的挑战,语篇翻译。大部分的翻译系统现在所使用的翻译方法都是基于句子,以句子作为单位,一个句子一个句子的进行翻译。单看这三个句子翻译还可以接受。但是连起来看就觉得生硬不连贯。我们的方法输出的结果。可以看到,定冠词、代词的加入提升了句子间的连贯性。我们提出了一个两步解码的方法。在第一轮解码中单独生成每个句子的初步翻译结果,在第二轮解码中利用第一轮翻译的结果进行翻译内容润色,并且提出使用增强式学习模型来奖励模型产生更流畅的译文。这是我们系统输出的一个结果,整体上,流畅度提高了。原文链接:打开CSDN,阅读体验更佳机器翻译技术的瓶颈提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言概述一、机器翻译的瓶颈在哪里?二、是否存在第四代机器翻译?三、自然语言处理的可解释性研究之争四、观众问答环节Q1:如何加入先验知识,引入外部知识或融合专业术语是不是一种途径?Q2:有没有可能现在已经出现了一些能超过 Transformer 的模型,但是这种WMT数据加上 BLEU 值的评测手段不能体现出其优势,未来应该设计怎样的评测手段,从而更好地推动机器翻译的发展?Q3:非常认同张民老师认为「翻译是再创造过程」的观点,其实从规继续访问ACL 2018 | TA-NMT:利用大语种语料,提升小语种神经机器翻译能力编者按:随着神经机器翻译的快速发展,英语、法语等大语种之间的翻译任务已经能够达到良好的翻译效果,而小语种的翻译仍然是一个难题。与大语种丰富的语料数据相比,小语种机器翻译面临的主要挑战是语料的稀疏性问题。为了更好地解决这一问题,微软亚洲研究院自然语言计算组提出了一个呈三角结构的神经机器翻译模...继续访问EMNLP 2019 | 大规模利用单语数据提升神经机器翻译BDTC大会官网:作者 | 吴郦军、夏应策来源 | 微软研究院AI头条(ID:MSRAsia)编者按:目前,目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而,目标语言端的无标注数据一旦使用不当,反而会给模型结果带来负面影响。为了有效利用大规模源语言端和目标语言端的单语数据,微软亚洲研究院在 EMNLP 2019 上发表的论文中,提出一...继续访问腾讯AI Lab涂兆鹏:如何提升神经网络翻译的忠实度 | 附PPT + 视频本文为 1 月 4 日,腾讯 AI Lab 高级研究员——涂兆鹏在第 22 期 PhD Talk 中的直播分享实录。机器翻译是自然语言处理的经典任务之一,涉及到自然语言处理的两个基本问题:语言理解和语言生成。这两个问题的建模直接对应译文的两个评价指标:忠实度(是否表达原文的完整意思)和流利度(译文是否流畅)。近几年来,神经网络机器翻译取得了巨大进展,成为了主流模型。神经网络由于能缓解数据稀疏性及捕继续访问干货 | 关于机器翻译,看这一篇就够了作者简介俞谦,携程度假大数据研发部算法工程师,主要负责机器翻译的研究与应用,目前专注于自然语言处理在垂域下的成熟解决方案。机器翻译技术的发展一直与计算机技术、信息论、语言...继续访问人工神经网络的算法原理,人工神经网络算法实例人工神经网络的优缺点人工神经网络由于模拟了大脑神经元的组织方式而具有了人脑功能的一些基本特征,为人工智能的研究开辟了新的途径,神经网络具有的优点在于:(1)并行分布性处理因为人工神经网络中的神经元排列并不是杂乱无章的,往往是分层或以一种有规律的序列排列,信号可以同时到达一批神经元的输入端,这种结构非常适合并行计算。(3)鲁棒性和容错性由于采用大量的神经元及其相互连接,具有联想记忆与联想映射能力,可以增强专家系统的容错能力,人工神经网络中少量的神经元发生失效或错误,不会对系统整体功能带来严重的影响。..继续访问神经翻译笔记5扩展b. 常用的机器翻译技巧文章目录神经翻译笔记5扩展b. 常用的机器翻译技巧组合解码单语数据应用重排序领域适配参考文献 神经翻译笔记5扩展b. 常用的机器翻译技巧 本节介绍提升机器翻译系统效果的常见手段。这些手段有些实际上是深度学习的通用技巧,有些在神经翻译出现后不久就被人提出,经过若干发展沿用至今,有些甚至在统计翻译时代就已出现。无论如何,这些手段独立于模型架构存在,都不仅能够增强模型效果,还展现了顽强的生命力以及良好的通用性 本节参考了Koehn的NMT综述、、三小节的内容,并根据个人喜好作了继续访问从冷战到深度学习,一文看懂机器翻译发展史点击上方“CSDN”,选择“置顶公众号”关键时刻,第一时间送达!CSDN编者友情提示:完成本篇阅读至少需要消耗一周能量,请提前收藏~~~图片来源于网络通常来讲,我打开Google翻译的次数是Facebook的两倍,对我来说即时翻译不再是“赛博朋克”专属的情节,它已经成为我们现实生活的一部分。很难想象,经过一个世纪的努力机器翻译的算法竟得以实现,期间甚至有一半的时间我们都觉察不到这项科技的发展。从搜继续访问机器翻译的局限一、多义性识别上的困难多义性指的是人们交际中所发出的信息在不同的语境下可以表现出多种不同的意义。这是机器翻译要解决的最基本的,也是最难解决的一个问题。如,今天是星期六对丈夫说,可能表示提醒孩子对父母说,可能表示这个孩子想放松,想要出去玩。老板对打工者说,可能表示今天上班算加班。从疲劳过度的学生口中说出来,可能表示今天向睡个懒觉。以上所局还可能有更多的例子,但是单单是这些继续访问神经网络机器翻译技术及应用(上)何中军,百度机器翻译技术负责人。本文根据作者2018年12月在全球架构师峰会上的特邀报告整理而成。 本报告分为以下5个部分: 机器翻译基本原理,介绍机器翻译原理、主要挑战、发展历程,及评价方法 神经网络机器翻译,介绍近年来迅速崛起的神经网络机器翻译 技术挑战,尽管神经网络机器翻译取得一系列较大的进展,但是仍然面临诸多挑战; 典型应用,机器翻译在生产、...继续访问论机器翻译之浅薄翻译 | shawn编辑 | 波波、费棋【AI科技大本营导读】尽管机器翻译明显玩不转备受期待的长篇内容,但我们得承认,在快速获知单词含义层面,它确实为人们提供了一定便利。可奇怪的是,无论媒体报道还是行业中都似乎营造了一种机器翻译马上要取代人类译者的气氛,这给了人们一种快要成了的错觉。有人要揭开盲目乐观的面纱,因《哥德尔、埃舍尔、巴赫》一书而获得普利策奖的美国学者侯世达是其中之一。他以自己亲身体继续访问机器翻译技术现状评述与展望 | 行业观察今天,你AI了没?关注:决策智能与机器学习,每天学点AI干货正文共:2497字7图预计阅读时间:7分