基于语义分布相似度的翻译模型领域自适应研究-山东大学学报理学版.pdf

基于语义分布相似度的翻译模型领域自适应研究-山东大学学报理学版.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于语义分布相似度的翻译模型领域自适应研究-山东大学学报理学版

 第51卷 第7期 山 东 大 学 学 报 (理 学 版) 2016年7月             Vol.51  No.7          JournalofShandongUniversity(NaturalScience) Jul.2016   文章编号:16719352(2016)07004308   DOI:106040/j.issn.16719352.1.2015116 基于语义分布相似度的翻译模型领域自适应研究  姚亮,洪宇 ,刘昊,刘乐,姚建民 (苏州大学江苏省计算机信息处理重点实验室,江苏 苏州215006) 摘要:统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,当训练数据和测试数据领域分布不一致时, 其翻译质量往往较低。针对这一问题,提出了一种基于语义分布相似度的翻译模型领域自适应方法。该方法首 先获得目标领域源语言端和目标语言端的词向量,并构建二者之间的映射关系。借助这一映射关系,获取源语言 单词在目标语言端的语义k近邻词,然后基于该语义k近邻词在通用领域语义空间的分布,计算双语短语在目标 领域下的翻译相似度,并作为新特征加入解码器,以此提升通用翻译模型的领域自适应能力。实验结果表明,相 比于基准系统,利用本文所提方法优化后的翻译系统在英汉翻译任务新闻领域测试集和科技领域测试集上,分别 获得067和056个BLEU值的性能提升。 关键词:翻译模型;词向量;向量映射;语义分布;领域自适应 中图分类号:TP393   文献标志码:A 引用格式:姚亮,洪宇,刘昊,等.基于语义分布相似度的翻译模型领域自适应研究[J].山东大学学报(理学版),2016,51(7):4350. Translationmodeladaptationbasedonsemanticdistributionsimilarity  YAOLiang,HONGYu ,LIUHao,LIULe,YAOJianmin (ProvincialKeyLaboratoryofComputerInformationProcessingTechnology,SoochowUniversity, Suzhou215006,Jiangsu,China) Abstract:Statisticalmachinetranslation(SMT)systemistrainedwithlargescaleanddomainmixedparallelcorpus, whenthedatafortrainingandtestingarenotbelongedtothesamedomain,thetranslationqualityusuallydropsdramat ically.Tosolvethisproblem,weproposedanovelapproachtoadaptthetranslationmodelbasedonsemanticdistribu tionsimilarityoftranslationpair.Theapproachfirstlyobtainedwordrepresentationsbothinsourceandtargetlanguage, andthenbuiltmappingtolinkthedifferentvectorspace.Withthemappingfunctionthesemanticknearestneighborsof sourcelanguageinthetargetvectorspacecanbeeasilyobtained.Basedonthesemanticdistr

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档