- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于加权词汇衔接的文档级机器翻译自动评价
词汇衔接评价方法的健壮性 为了测试词汇评价方法的健壮性,用3种评价衔接性的方法以相同的设置在MTC4上做了相应的实验。 MTC4 Adequacy Fluency LC 0.3160 0.2502 WLC 0.3417 0.2815 PWLC 0.3576 0.2927 BLEU 0.6055 0.5093 BLEU+LC 0.6250 0.5266 BLEU+WLC 0.6284 0.5330 BLEU+PWLC 0.6311 0.5349 TER -0.5173 -0.4572 TER+LC -0.5704 -0.4956 TER+WLC -0.5736 -0.5059 TER+PWLC -0.5765 -0.5067 METEOR 0.6981 0.5543 METEOR+LC 0.6956 0.5537 METEOR+WLC 0.6958 0.5570 METEOR+PWLC 0.6969 0.5579 表6 不同方法融合词汇衔接后在MTC4数据集上的Spearman相关系数 词汇衔接评价与主流评价方法的相关度 考虑到词汇衔接在不同方法上融合效果的不一致性,本文做了一组实验来计算词汇衔接与各种不同的评价方法间的相关度 表7 词汇衔接与不同评价方法间的文档评分的相关度 BLEU TER METEOR MTC2 LC -0.1324 -0.0161 0.0869 WLC -0.1038 -0.0486 0.0676 PWLC -0.0973 -0.0649 0.0703 MTC4 LC 0.2529 -0.1380 0.3866 WLC 0.2886 -0.1786 0.4378 PWLC 0.2973 -0.1911 0.4491 通过分析各种方法之间的相关性发现,LC、WLC和pos-WLC与METEOR和PBE的相关度较高,这可能是融合效果较小的一个原因。 总结 本文在词汇衔接评价LC的基础上提出了WLC和pos-WLC两个评价方法。它们采用基于词图的PageRank得到词汇的权重,且pos-WLC在计算权重时又考虑了词汇的词性带来的影响。 最后,本章使用了一种简单的方法将词汇衔接评价加入到已有评价方法中。 在词汇衔接性的评价上,本文提出的基于PageRank的方法WLC以及基于词性权重的pos-WLC方法要优于已有的LC方法。 同时将这三种方法融合进BLEU、TER、METEOR之后,发现它们能有效地提高BLUE和TER在文档评价上的效果,但是并没有对METEOR产生明显的帮助。 谢谢! * 边的权重表示为e ,节点 的出度表示为 o ramada是一个阻尼因子,值在0和1之间, 是节点数。该阻尼因子表明,每一个节点都有一个随机跳到其它节点的概率 PageRank是迭代算法,本文将其最大迭代次数设置为100,或者所有节点的值变化之和小于0.00001时停止算法 * 在此词图上计算前面的Rw分值 * * 通常,评价的粒度分为句子级、文档级和系统级。由于本文的评价数据含有的系统太少,产生的相关系数可信度不高,所以本文所有的实验均未给出系统级的评价。 此外,由于衔接性评价是针对文档级进行的,不适用于句子级别的评价,因此本文给出的实验结果都是针对文档级的相关系数。 * 从图4可以看出,随着窗口的不断增大,WLC的性能不断下降;与WLC相比,虽然PWLC也总体上呈现下降趋势,但是当窗口增大时,PWLC性能逐渐高于WLC。 该图中的下降趋势的一个可能原因是:随着窗口的增大,词图中的边也随之不断增多,加入的这些边连接的都是距离较长的一些词汇,但是这些距离信息却不能反映在词图中,因此词图中词的区分度会变小。 通过观察图4也可以发现,用PageRank训练词汇权重后,词汇衔接方法的评价性能有了显著的提高。同时,虽然窗口增大使得WLC和PWLC性能有所下降,但是依然高于LC,尤其在Fluency上性能的差异更加显著。 * 文献[9]在实验中优化了这三种方法与LC融合时的参数,其优化的目标是最大化与人工Adequacy评分的Pearson相关系数,优化后的结果如表4所示。这个优化结果被直接应用在本文的实验中。 不同的窗口大小对Fluency和Adequacy的性能影响有一定的差距,而且差距不是最大,这样便于比较两者在融合方面的差异,而且具有较小的过拟合风险。 * 从表中可以看出,三种基于词汇衔接的方法都有效地提高了三种主流的评价方法在文档级的评价效果。尤其在BLEU和TER上表现的最为显著。LC使BLEU和TER在Adequacy上取得了最好的评分,本文提出的WLC和PWLC在Fluency上表现得更好。而且对比WLC和PWLC发现这两种方法在MTC2数据上没有显著的差异。 * 现在两个数据集上,本文提出的两个方法WLC和P
文档评论(0)