网站大量收购独家精品文档,联系QQ:2885784924

融入句型信息的汉英双向调序模型.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

*融入句型信息的汉英双向调序模型张家俊、宗成庆中科院自动化所背景*自从IBM翻译模型的提取,特别是基于短语的翻译模型提出后,调序模型始终是统计机器翻译的关键问题,是研究的热点从基于距离的扭曲模型、词汇化的调序模型到层次化的短语翻译模型、最大熵调序模型,都非常有效地提高了翻译质量想法*这些模型没有充分利用语言所固有的语法信息,在不需要调序的地方浪费了大量的计算时间这些模型没有充分利用句子的先验知识,譬如句型,因为不同的句型具有不同的调序策略0102句型在调序中的作用*几个例子:句型调序分析*特殊疑问句中至少有一固定的短语(我们称为特殊疑问短语)在翻译成英语时通常出现在句首;一般疑问句在翻译时有特定的例如can,do,is等引导词;在非疑问句中,有很大比例的句子中出现介词短语、时间地点短语,这些短语在汉语中出现在动词前,而在翻译时一般出现在动词的后面口语语料分析*01我们分析277k中英对齐句对发现,大约17.2%是特殊疑问句,约25.5%为一般疑问句,其余为非疑问句。02可见在口语翻译中,基于句型的调序是非常有意义且具有研究价值的基于句型调序的翻译框架(汉英)*英语输出C1C3C2汉语输入句子后向、前向调序模型后向调序模型翻译引擎分类器后向调序模型基于句型调序的翻译框架(英汉)*C1、C2和C3的意义同上图,“逆”表示与上图的算法相似但调序方向相反C1C3C2英语输入句子逆后向、前向调序模型逆后向调序模型汉语结果输出分类器逆后向调序模型英汉翻译引擎模型与算法*01句型的分类算法:SVM-based02前向调序模型、逆前向调序模型03后向调序算法、逆后向调序模型句型分类算法*SVM的优势,分类准确,几乎不受标点的影响(我们知道标点是句型关键性的特征)实验:语料:三类句型分别问1000句,80%作为训练,20%作为测试实验结果:前向调序模型*适用句型:特殊疑问句01调序对象:特殊疑问短语01调序的两个关键问题:特殊疑问短语的识别正确的调序位置01特殊疑问短语的识别调序的两个关键问题*3241我们在语法上给特殊疑问短语一个定义:包含特殊疑问词的完整的语法成分。我们采用chunking的浅层句法分析来识别特殊疑问短语特殊疑问词是利用互信息得到的一个闭集:什么、哪、多(多长、多久)、怎、谁、几、为什么、何在汉语中,从语法层面看来,特殊疑问短语可能会是任何一类语法成分,从语法层无法识别调序的两个关键问题*正确的调序位置分析翻译实例我们发现,调序的位置分为3类:句首、子句首、特定模板短语(从对齐语料习得)后分别举例:这个味道怎么样?=》怎么样这个味道?请问,去海滩怎么走?=》请问,怎么走去海滩?你认为到那要多长时间?=》你认为要多长时间到那?逆前向调序模型*适用句型和处理对象与前向模型一样12同样面临调序的两个关键问题:特殊疑问短语的识别正确的调序位置3面向英汉翻译任务对翻译结果的修正调序的两个关键问题*特殊疑问短语的识别同前向模型调序的目标位置:特殊疑问句的结构调序规则0102调序的两个关键问题*作为强调部分出现在句末作为动词短语的修饰成分出现在动词短语的前面特殊疑问句的两种结构若SQP为动词短语,则将其调至包含该SQP的子句末尾若SQP不是动词短语,而且中有动词短语,则保持其位置不变;否则将其调至包含该SQP的子句末尾调序规则后向调序模型*针对句型:所有句型01调序对象:在翻译中最有可能调序的短语=》介词短语、时间地点短语02调序的两个关键问题介词短语、时间地点短语与动词短语的识别调序策略03介词短语、时间地点短语与动词短语的识别调序的两个关键问题*采用chunking浅层句法分析01虚拟动词短语(VVP)的定义:由于识别错误等原因,有时在介词短语、时间地点短语后没有识别出动词短语。为加强该模型的适应性,我们定义自此介词或时间地点短语后到子句的结束为伪动词短语,并赋予其动词短语的功能。02例:请在这里签名。“签名”被识别为NP,在我们的模型中,它就是VVP03调序的两个关键问题*调序策略:利用最大熵模型决定识别出的介词或时间地点短语是否需调序到紧跟着它们的动词短语后。调序规则:逆后向调序模型*面向英汉翻译任务介词短语、时间

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档