全国机器翻译研讨会CCID技术报告.PPTVIP

下载本文档

2
0
约1.23千字
约 10页
2018-03-16 发布于天津
举报
版权申诉

全国机器翻译研讨会CCID技术报告.PPT

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

全国机器翻译研讨会CCID技术报告

第四届全国机器翻译研讨会CCID技术报告中国电子信息产业发展研究院孙广范引言本文对中国电子信息产业发展研究院（CCID）参加第四届全国机器翻译研讨会评测的汉英和英汉机器翻译系统进行描述。参加的评测项目包括汉英新闻领域机器翻译、英汉新闻领域机器翻译、英汉科技领域机器翻译。其中，汉英机器翻译系统包括一个基于规则的系统和一个基于短语的统计机器翻译系统，英汉机器翻译系统是一个基于规则和模板的系统。系统系统1：基于规则和模板的汉英机器翻译系统本系统是传统的基于规则的系统，其中融入了模板技术、统计技术，属于基于转换的机器翻译系统。其既有规则系统的适应面较宽的特点，也有规则方法固有的知识颗粒度粗的不足。另外，本系统面向新闻领域语料调试工作做得较少，也是其处理新闻语料效果不十分理想的原因之一。系统系统2：基于规则和模板的英汉机器翻译系统本系统采用规则和模板相结合的技术，面向英语新闻领域进行了针对性调试，因此处理英语新闻语料效果较好。同时，由于针对科技领域语料调试量较少，所以针对科技语料的处理效果差些。系统系统3：基于短语的汉英统计机器翻译系统本系统的训练语料包括400万句对的通用汉英平行语料，其中包括863评测提供的83万汉英平行语料。分词工具采用自己研制的分词工具，采用GIZA++、中科院计算所的Camel解码器。训练结果生成了1千万条的短语翻译表，语言模型是从其中2百万句对中的英文部分训练出来的。由于本系统的训练语料对于新闻领域的针对性不强，导致了本次测试结果的BLEU值不高。下一步时拟增加新闻领域语料的收集，这样可以有效提高系统面向新闻领域语料处理的效果。实验系统1：基于规则和模板的汉英机器翻译系统实验系统3：基于短语的汉英统计机器翻译系统本次评测（CWMT2008）中的面向新闻语料的测试结果：实验系统2：基于规则和模板的英汉机器翻译系统本次评测（CWMT2008）中的面向新闻语料的测试结果：实验本次评测（CWMT2008）中的面向科技语料的测试结果：讨论机器翻译方法中，目前研究的热点是统计机器翻译方法，其优点是可以从平行语料库中快速地学习出大量的短语及其对译表达，并且可以训练出目标语语言模型，这样可以使其能够拥有比规则方法的系统更多的短语（特别是非句法成分的短语），目标语语言模型可以使其选择译文搭配时可以区分得更细，这样使的其译文与人工译文的相同语言片段数量增加，从而BLEU增加。统计方法的缺点是长距离调序能力较差，因为其调序时较少考虑人的语言知识。规则和模板相结合的系统在模板数量达到一定量（几万条）时也可以表现出较好的翻译性能，其瓶颈在于大量的模板的获取问题的解决。基于句法的统计机器翻译方法的研究可能为将统计机器翻译的优点和人类语言知识的优点的结合途径的发现提供可能，但如何结合才能产生更好的效果仍需要进一步探索，还有相当一段路要走。 * * *