引入韵律结构信息层次短语模型改进研究.docVIP

下载本文档

1
0
约6.76千字
约 15页
2018-06-23 发布于福建
举报
版权申诉

引入韵律结构信息层次短语模型改进研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

引入韵律结构信息层次短语模型改进研究

引入韵律结构信息层次短语模型改进研究　　摘要：随着自然语言处理研究的不断深入，人们不但迫切需要挖掘文本更多的潜在语言学信息，而且还力图通过机器学习预测这些潜在的语言学知识，以便更加有效地提高机器翻译的性能，同时为计算语言学服务。韵律作为语音学方面的知识，已经广泛用于到语音合成、文音转换、语音翻译各个语音方面，对基于语音的自然语言处理起到不可替代的作用。该文对韵律信息如何，并以何种方式改进机器翻译进行了介绍，并通过实验验证韵律信息对层次短语模型有改进。　　关键词：统计机器翻译；层次短语模型；韵律结构信息；计算语言学；语音学　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2013）12-2860-04 　　随着统计机器翻译的不断发展，翻译模型经历了从最初的基于词的翻译模型，到基于短语的翻译模型，一直到基于句法甚至语义的翻译模型的演变。其中层次短语模型[1][2]是当今最好的基于句法的模型之一。层次短语模型脱胎于传统的短语模型[3]，继承了短语模型鲁棒的优点，同时又具备较强的长距离重排序能力。然而，现有的层次短语模型存在严重的规则冗余问题。例如，给定汉英句对如下：　　这星期它特价一百二十美元。　　its on sale this week for one hundred twenty dollars. 　　句对对齐结果由GIZA++从语料库训练得到。现给出平行句对的对齐矩阵，如图1所示：　　根据该对齐矩阵，我们可以得到初始短语（为简洁，此处省略了对齐信息，下同），根据蒋伟的层次抽取算法，我们可以进一步得到如下含变量的规则集：　　1.X→ 　　2.X→ 　　3.X→ 　　4.X→ 　　5.X→ 　　6.X→ 　　7.X→ 　　8.X→ 　　9.X→ 　　10.X→ 　　11.X→ 　　12.X→ 　　13.X→ 　　14.X→ 　　通过对上述规则集进行分析，我们发现规则集中存在大量冗余。冗余规则的的形式如下：　　X→ 　　X→ 　　X→ 　　X→ 　　为什么这些规则是不合理的？如果我们把原句的韵律结构信息考虑近来就比较清楚了。假设现有句对源端的韵律结构，如下所示：　　这 y 星期 y 它 y 特价 y 一 n 百 n 二 n 十 y 美元 y 。y 　　可以看到这些不合理的规则绝大多数其规则变量与两边终结符的边界，并不是韵律切分边界。可见韵律结构信息将可能对层次规则泛化通过指导性信息。　　为此，该文将研究利用韵律信息对层次短语模型的改进。本章将从两个角度改进层次短语模型。首先利用韵律结构边界信息约束层次短语模型的抽取。另一种角度，增加模型的特征函数[5]，利用韵律信息，改进层次短语模型的翻译模型，生成最优的译文。　　1 层次短语模型　　在层次短语模型中，对任意给定的源语言句子f，一般会存在多个推导得到f，从而得到许多可能的翻译候选项e。层次短语翻译模型通过计算推导过程的概率值确定最终的翻译结果，使用对数线性模型来进行推导，模型如下：　　[P（D）∝i?i（D）λi] （1）　　这里，[?i]是定义在推导的特征值，[λi]为这些特征值的权重。除了m元语言模型P（m），剩余的特征定义为上下文无关文法的推导过程中使用的规则的特征上：　　[?i（D）=（X→）∈D?i（X→）] （2）　　进一步地，可以推导出[P（D）]：　　[P（D）∝PLM（e）λLMi≠LM（X→）∈D?i（X→）λi] （3）　　除了语言模型，将其他因子放在一起表示，如下表示：　　[W（D）=（X→）∈DW（X→）] （4）　　且定义：　　[W（X→）=i≠LM?i（X→）λi] （5）　　由以上公式，可以得到模型的最后表示：　　[P（D）∝PLM（e）λLM×W（D）] （6）　　而层次短语模型的规则集D是在训练过程中，从对齐的平行句对中抽取出来的，规则形式如下：　　X → 　　其中，X是N集合中的某个非终结符；γ， α分别为源语言端、目标语言端的终结符与N中的非终结符组成的串；～为γ， α中非终结符之间的对齐关系，在实际规则中可以通过变量的下标表示；w为规则的权值。　　且短语规则利用了类似于Pharaoh的默认特征集相似的特征：目标语言与源语言之间的双向短语翻译概率、短语规则中词相互翻译的贴切度、每个短语规则的惩罚、胶水规则惩罚以及词惩罚。使用最小错误率对对数线性模型各特征的权值调整，并通过对数线性模型把上述特征组合起来。　　层次翻译模型的解码器是一个CKY句法分析器，用CKY形式的算法使用学习得到的同步上下文无关文法的源端，对目标端进行同步句法分析