- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模糊匹配于树到串翻译模型中的应用
摘要:在传统的基于树的翻译模型中,一般都是将一条规则视为字符串,然后使用字符串匹配技术从规则表中搜索可用的规则。然而,由于基于树的翻译模型依赖于句法分析的结果,而有些语言的句法分析准确率并不是很高,所以句法分析错误造成的规则无法匹配的现象很常见,特别是在树到树的翻译模型中,能够精确匹配的规则数量非常稀少,进而对机器翻译的性能造成很大影响。因此本文提出了一种基于树核的模糊匹配技术,在NIST 2005 汉英翻译测试集上的结果表明, 基于树核的模糊匹配模型相对于传统的翻译模型显著的提高了1.3个BLEU值,并且在森林模型中使用模糊匹配技术仍然能够提高0.7个BLEU值。
关键词:树核,树到串翻译模型,统计机器翻译,模糊匹配
Fuzzy Matching for Tree-based Machine Translation
Abstract: Previous related work of tree-based models treat rules as strings and then match rules using string matching algorithm. However, the performance of tree-based models is largely depended on the parsing results, and for some languages, the precision of current parser is still far from state-of-the-art. So two rules with one different tag causing by parsing errors seems to be unmatchable. Under exact matching strategy, the size of available rules is implicitly scarce especially in tree-to-tree models, in which the performance is still unacceptable. In this paper, we present a tree kernel based fuzzy matching algorithm which computes the similarity between different rules. Experimental results on NIST 2005 Chinese-to-English test set show that our system achieve an absolute improvement of 1.3% in term of BLEU score over string matching system. Furthermore, when using the packed forest, our method still gets a relative improvement of 0.7 BLEU score.
Keywords: tree kernel, tree-to-string model, statistical machine translation, fuzzy matching
1 导论
最近几年来,基于树的翻译模型受到了越来越多的关注,并且在近几年的NIST翻译评测中取得了不错的成绩。根据输入的不同,基于树的模型可以分为以下两类:串输入模型 [1][2][3][4]和树输入模型[5][6]。串输入模型使用上下文同步文法对输入的文本串同时进行句法分析和翻译;而树输入模型则直接将输入的句法树转换成目标翻译或者目标句法树。
树输入的模型主要包括树到串翻译模型[7][8]和树到树翻译模型 [9][10][11]。这两种模型都将解码部分分为两个步骤:句法分析和翻译。首先使用句法分析器将输入的源文本串分析成一棵句法分析树,然后利用解码器将句法树转换成目标翻译。然而对于某些语言来说,比如中文,句法分析的准确率远没有达到令人满意的结果。因此,解码器的性能不可避免的要受句法分析错误的影响 [12]。
为了减轻句法分析错误对翻译性能的影响,一种可行的方法是在源端使用句法分析森林来替代单棵最优句法树[13][14]。上述文献也表明使用森林技术可以很大程度上提高翻译的质量。但是不管是使用单棵句法分析树还是使用森林,以往的工作都是将规则表示为文本串,然后使用字符串匹配技术从规则表中搜索可用的规则。但是有些规则所含的节点数目非常多,如果使用字符串匹配技术进行完全匹配,从规则表中很难找到可
文档评论(0)