单纯形算法在统计机器翻译Reranking中应用.docVIP

  • 16
  • 0
  • 约6.36千字
  • 约 12页
  • 2018-08-25 发布于福建
  • 举报

单纯形算法在统计机器翻译Reranking中应用.doc

单纯形算法在统计机器翻译Reranking中应用

单纯形算法在统计机器翻译Reranking中应用   (1.中国科学院研究生院北京100049;2.中同科学院计算技术研究所多语言交互技术评测实验室,北京100080)   摘要:近年来,discriminative re-ranking技术已经被应用到很多自然语言处理相关的分支中,像句法分析,词性标注,机器翻译等,并都取得了比较好的效果,在各自相应的评估标准下都有所提高。本文将以统计机器翻译为例,详细地讲解利用单纯形算法(Simplex Algorithm)对翻译结果进行re-rank的原理和过程,算法的实现和使用方法,以及re-rank实验中特征选择的方法,并给出该算法在NIST-2002(开发集)和NIST-2005(测试集)中英文机器翻译测试集合上的实验结果,在开发集和测试集上,BLEU分值分别获得了1.26%和1.16%的提高。   关键词:人工智能;机器翻译;discriminative re-ranking;单纯形算法;统计机器翻译   中图分类号:TP391 文献标识码:A      1 前言      所谓discriminative re―ranking就是指针对某个评估标准对机器翻译程序输出的多个结果进行重新选择,致力于从中选择出使该标准达到最优时的翻译结果。   以统计机器翻译为例,实现discriminative re-ranking的基本做法如下:首先由机器翻译系统对开发集和测试集中的每个句子都生成N个候选译文,称之为“N-best list”,然后根据需要选取合适的译文特征,生成所有候选译文的特征分数,接着,就可以利用某种re-ranking算法针对机器翻译相应的评估标准,如BLEU、NIST,在开发集上训练出各特征在相应评估标准达到最优值时的权重,最后,利用开发集上训练得到的各特征的权重直接从测试集的N-best list中选出每个句子的最佳译文。   discriminatiVe re-ranking技术由国外的研究人员首先提出并广泛应用于句法分析中,同时取得了很好的效果,机器翻译的研究人员受其启发,将其应用在机器翻译系统的后处理阶段,以期获得翻译系统在性能上的提高。这项技术之所以能够在统计机器翻译后处理中得到重要应用,还在于:   1.当前的统计机器翻译系统很多是基于对数线性模型(Log―linear Model)的,而该模型建立时一个很重要的问题就是模型特征的选择,最好不要选计算过于复杂的特征,那会使模型的训练和解码的复杂度让人不可忍受,有了re-ranking技术,就为在模型建立时采用相对简单的特征,而在re-ranking阶段使用比较复杂的特征提供了条件,既可降低模型的复杂度,又能取得较好的整体性能;   2.discriminative re-ranking技术使得为模型添加一些有用的全局特征成为可能,像候选译文的句法结构特征,从而使统计机器翻译系统也可以利用一些句法信息来提高系统的性能。   目前,国际上针对discriminative re-ranking提出了多种可行算法,这些算法大致上可以分为两类:一类是将re―ranking问题看作类似于分类问题,通过改造现有的机器学习算法来进行re―rank,具有代表性的算法有感知机(Perceptron)算法[9],类感知机(Perceptron-Like)算法[7],支持向量机(SVM)算法[6]等;另一类是将re-ranking问题看作是多维求极值问题,具有代表性的算法有鲍威尔(Powell)算法,最小分类错误率算法(MCE)[3],单纯形算法[2]等。   在这些算法中,应用比较广泛的是类感知机算法[7],最小分类错误率算法(MCE)[3],和单纯形算法[2]。   类感知机算法又叫做多偏差感知机算法(Multi―Bias Perceptron Algorithm),是Shen针对机器翻译结果进行re-rank这一特殊应用通过改造传统的感知机算法提出来的。由于对机器翻译系统产生的结果进行评估时每个句子都有多个参考译文,而不像句法分析可以有一个唯一的最好的参考结果,因此,对于一个句子的多个候选译文很难明确的区分出好与坏,因为可能某个候选译文和某个参考译文很接近,而另一个候选译文则和另一个参考译文很接近,但两个候选译文之间相差较大,这不能说明哪个译文质量更好,于是,Shen提出了一种解决的方法,他将每个汉语句子的N―best list中的候选按照对BLEU分值的影响大小重新排序,然后将前r个看作好的翻译,后k个看作差的翻译来训练分类的超平面,最后每个汉语句子都有一个超平面将好与差的候选译文分开,并且要求这些超平面相互平行,具有相同的特征向量w,感知机算法训练的目的就是要找到这个w,有了w之后就可以直接从

文档评论(0)

1亿VIP精品文档

相关文档