在统计机器翻译中,语言模型的性能受限于训练数据的数量和质量,并不是仅靠增加训练数据的规模就可以提高语言模型的性能,也要训练数据和当前翻译任务相匹配。因此,很多学者选择从大规模训练数据中筛选和当前翻译任务相似的训练数据的角度来提高语言模型的性能。这样可以提供更精确的模型概率,也更和当前翻译任务相匹配,进而提高翻译性能。
前人的基于数据筛选的语言模型自适应方法大都依赖于一次解码的翻译结果,他们根据一次解码的翻译结果从目标语言端语言模型的训练数据中筛选和当前翻译任务相似的训练数据。这些方法全部受限于翻译结果的质量,越好的初始翻译结果会带来越精确的筛选到的数据。但是翻译结果远不够精确,里面有很多噪声数据。带有噪声的翻译结果会误导数据筛选过程,进而将噪声带入筛选到的训练数据中,最终导致“噪声繁衍”的问题,降低自适应后的语言模型的性能。
另外,传统的数据筛选方法都是基于词袋模型的,可以看作是上下文内容无关的。这些方法在整个数据筛选过程中将词语孤立看待,以词为单位,没有考虑上下文内容信息,会降低筛选到的数据的质量。
为了解决以上方法的不足,很多学者从跨语言数据筛选和引入上下文内容的角度提出了双语数据筛选方法,基本上可以分为基于翻译模型的双语数据筛选和基于主题模型的双语数据筛选两类方法。在本论文中我们将对这两类方法进行全面综述和分析,最后给出相关的比较,总结和展望。
1 基于双语数据筛选的翻译模型自适应方法
1.1 基于词翻译的双语数据筛选(CLWTM)
1.2 基于短语翻译的双语数据筛选(CLPTM)
首先,每一个句子T被分割成K个非空的短语序列t1,…,tk的集合U;其次,非空的短语系列t1,…,tk被依次转化(翻译)成一系列的非空的短语系列q1,…,qk;最后,将得到的短语转化(翻译)序列q1,…,qk的集合V 进行调序组合生成句子S。
在以上假设下,基于短语翻译的双语数据筛选可以表示为:
其中,M表示K个短语调序后的结果;B(T,S)定义为U,V和M构成的三元组集合,表示将T转换成S的过程。
对于给定的部分对齐关系,我们关注的是由U,V和M构成的三元组与部分对齐关系是一致的,记为B(T,S, )。一旦词语对齐关系确定了,调序部分就可以忽略。利用最大化求和可以得到:
不同于基于词的翻译模型,基于短语的模型在数据筛选过程以短语为单位,融入了上下文信息,理论上可以获得更好的性能,但是直接运用基于短语翻译的相似值计算进行数据筛选效果不好。为提高性能,通常采用线性排序的方法,将不同的模型作为特征,融合到统一的框架中。例如,短语翻译特征,词汇化特征,词翻译特征等。
1.3 基于联合双语主题模型的双语数据筛选(JBLTM)
在数据筛选任务中,对于一个相似的双语句对我们假设有完全相同的主题分布,以主题分布为目标去做双语数据的相似值计算。对于任何一个主题z,从一个带有参数β的狄利克雷先验分布中选取一对不同的词分布(φ, φ)。其中,φ和φ分别是S和T的具体主题词分布。对于每个S以及跟它配对的T,可以从一个带有参数α的狄利克雷先验分布中提取相应的主题分布β。句子S中的每个词可以通过先根据β选择一个主题z来生成,然后再从φ中抽取出一个词。
在以上条件下,一个跨语言主题相似句对的基于语义的对数可能性以及词-主题分布可以计算如下:
接下来,通过最大化双语数据的联合对数可能性,并采用标准EM算法去估算参数(θ,φS,φT)。E步骤:针对每个隐变量z,计算句子S中的每个词s和配对句子T中的每个词t的后验概率;M步骤:通过E步骤计算得到的后验概率来更新参数。
1.4 基于成对双语主题模型的双语数据筛选(CBLTM)
在数据筛选任务中,对于一个相似的双语句对不一定要有完全相同的主题分布,更加合理的应该是相似的主题分布。因为相似句对在长度不同的时候,主题分布不可能完全相同变得尤其明显。我们希望JBLTM趋向于在长句时的主题向量的生成更好,使得句对中两个句子的对数可能性更高,而短句的最好的主题分布权重相对更小,进而在JBLTM基础上我们提出了CBLTM。
2 比较与总结
以上四种双语数据筛选方法可以基本分为两类:基于翻译模型的双语数据筛选和基于主题模型的双语数据筛选:
2.1 基于翻译模型的双语数据筛选方法
相对于传统的利用单语数据筛选的方法,双语数据筛选可以解决“噪声繁衍”的问题。另外,相对于传统的基于词袋模型的方法和基于词翻译的双语数据筛选方法,基于短语翻译的双语数据筛选方法能够从词汇的层面考虑“局部”上下文内容,在数据筛选过程中以短语为处理单位,提高数据筛选精度。
2.2 基于主题模型的双语数据筛选方法
该类方法可以从词的主题分布的层面考虑“全局”上下文内容。假设语义相关的词经常出现在相似的上下文中,而这些语义相关的词通常可以看作是一个“主题”。该类方法将双语数据筛选过程看作是在语言上独立地跨语言语义表示,并且假设相似的双语数据句对含有相同或是相似的主题分布,也就是相同或相似的全局上下文信息。基于联合双语主题模型的双语数据筛选方法对跨语言相似的句对赋予相似的主题分布并且在建模过程中对于不同长度的句对处理是相同的,所以更加适合于基于双语数据筛选的语言模型自适应任务,并且有更好的性能。
相关实验结果表明,相对于传统方法,以上两类方法可以进一步提升数据筛选的性能,在语言模型困惑度和翻译性能方面都有明显提高,最终提高统计机器翻译中语言模型自适应的性能。
从系统融合角度来说,基于翻译模型的双语数据筛选方法和基于主题模型的双语数据筛选方法对于双语数据筛选过程是相互补充的,可以通过线性排序函数对这两类方法进行融合,进一步提高数据筛选的性能。融合后的模型既能从词汇的层面考虑上下文信息,又能从语义的层面考虑上下文信息,因此融合后的模型比单一模型具有更好的上下文描述能力。
虽然以
上数据筛选方法性能都相对很好,但是在实际系统运用中模型过于复杂,需在系统实现上做进一步的优化,精简模型。如做相应的关键词信息处理,利用TextRank算法提取相应的关键词并对训练数据做处理,在此基础上训练模型。另外,要在根本上提高语言模型自适应的性能,还需在模型和大数据方面做相应的深入研究,一是要做到数据融合和模型整合的统一,二是要做到海量规模的训练数据。
参考文献
[1] Matthias Eck, Stephan Vogel and Alex Waibel. Language model adaptation for statistical machine translation based on information retrieval. Proceedings of LREC 2004, pages 327-330.
[2] Bing Zhao, Matthias Eck, and Stephan Vogel. Language model adaptation for statistical machine translation via structured query models. Proceedings of COLING 2004, pages 411-417.
[3] Sameer Maskey and Abhinav Sethy. Resampling auxiliary data for language model adaptation in machine translation for speech. Proceedings of ICASSP 2010, pages 4817-4820.
[4] Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel. Adaptation of the translation model for statistical machine translation based information retrieval. Proceedings of EAMT 2005, pages 133-142.
[5] Sankaranarayanan Ananthakrishnan, Rohit Prasad, and Prem Natarajan. On-line language model biasing for dtatistical machine translation. Proceedings of ACL 2011, pages 445-449.
[6] Amittai Axelrod, Xiaodong He, and Jianfeng Gao. Domain adaptation via pseudo in-domain data selection. Proceedings of EMNLP 2011, pages 355-362.
[7] Shixiang Lu, Wei Wei, Xiaoyin Fu, and Bo Xu. Translation model based cross-lingual language model adaptation: from word models to phrase models. Proceedings of EMNLP-CoNLL 2012, pages 512-522.
[8] Shixiang Lu, Xiaoyin Fu, Wei Wei, Xingyuan Peng, and Bo Xu. Joint and coupled bilingual topic model based sentence representations for language model adaptation. Proceedings of IJCAI 2013, pages 2141-2147.