CWMT'08统计机器翻译研讨会自动化所技术报告何彦青2008年11月27日.ppt

下载文档 降价啦

10
0
约4.4千字
约 35页
2018-04-23 发布于天津
举报
版权申诉
保障服务

CWMT'08统计机器翻译研讨会自动化所技术报告何彦青2008年11月27日.ppt

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

报告提纲引言参评系统描述实验结果结论引言自动化所作为参评单位之一参加了所有的四个评测任务，即：新闻的汉英翻译评测任务；新闻的英汉翻译评测任务；科技的英汉翻译评测任务新闻的汉英融合评测任务。参评系统描述在这次评测中我们共有四个系统参加，即：自主开发的基于短语的翻译系统（BPSMT）；开源基于短语的翻译系统（Moses）；基于中心词的概率化句法调序系统Bandore；基于词语调序的对齐方法融合系统(WRABC)。 BPSMT 模型训练：语言模型利用开源Srilm工具包来获取四元文法概率信息；翻译模型主要是根据开源Moses工具包来获取翻译短语表，其中的参数设置都利用Moses工具包的默认设置；解码算法采用Beam-Search进行单调搜索获取翻译结果。 Moses 模型训练：利用Moses的默认设置来进行训练解码只用到了词这一个信息作为特征，没有使用因子模型。 Bandore 作为前端调序处理；关键思想：基于中心词的调序，中心词包括动词与名词，调序的候选对象是动词修饰语以及名词修饰语； Bandore 方法概要：由一个源语言句子得到一棵句法树；从句法树的根开始递归地考察每一个动词短语和名词短语，并利用最大熵的方法指导训练中心词（动词、名词）的修饰语是否需调至中心词的另一侧。 WRABC WRABC （续）在基于词的系统融合流程中，词对齐的质量直接关系到系统融合的性能。现阶段用于系统融合的词对齐包括基于词错误率 (WER)的词对齐和基于翻译错误率(TER)的词对齐； WRABC （续） WER词对齐方法和TER词对齐方法能较好地对齐词序相同的翻译假设。当对齐的翻译假设间词序有很大不同时，WER词对齐方法完全忽略词序的不同； TER词对齐准则虽然理论上解决了这个问题，但是TER词对齐准则采用的贪心搜索算法，在很多情况下无法实现大范围的词语块的调序。 WRABC （续）我们使用基于词语调序的对齐方法（WRA）。找出待对齐的翻译假设和参考对齐之间的所有公共的连续词语块；进行局部对齐；在局部对齐关系中寻找交叉的词语块对；利用已对齐的局部词语块的位置作为参考，对有词序变化的词语块位置进行调整。 WRABC （续）采用单纯形算法调整参数；在词对齐时选择的参考对齐是从所有参与融合系统的top-Best中抽取得到：依次把每个系统的top-Best用BLEU4打分,打分时参考译文为其它系统的top-Best，然后用MBR解码选择得分最高的top-Best为参考对齐；操作系统性能评测实验及结果机器翻译评测新闻汉英翻译评测；新闻英汉翻译评测；科技英汉翻译评测；系统融合评测新闻汉英融合评测；机器翻译评测数据准备短语表的获取开发集的获取对测试语料的特殊处理实验结果数据准备预处理对中文数据进行的处理：中文的分词，ICTCLAS3.0；全角变半角，对英文数据进行的处理：大写转小写标点符号的分离处理。短语表的获取所有机器翻译参评项目的短语表都是利用Moses工具包进行训练获取的，其中的参数都利用Moses工具包的默认设置。开发集的获取开发集的获取新闻评测任务以SSMT07的测试集作为基准利用相似度从剩余开发集中过滤一部分开发集与SSMT07测试集合并科技评测任务开发集1：以测试集为基准；利用相似度从科技训练语料中抽取一部分作为开发集；开发集2：利用测试集跟新闻发布训练中的英汉开发集的相似度来进行筛选过滤出来把这两个开发集合并成最终用于科技评测任务的开发集。对测试语料的特殊处理这次评测使用的是时事新闻语料和科技语料包含大量的命名实体，包括：人名、地名、机构名、时间、数字及未登陆词对测试语料进行特殊处理是很有必要的。对测试语料的特殊处理对这些实体词进行特殊处理并获得翻译列表，设置一个较大的概率添加到训练获得的翻译短语对中对测试语料进行解码。命名实体识别翻译中文命名实体识别采用[Wu，2005]开发的多知识源融合的汉语实体识别系统进行汉语命名实体的识别；英文命名实体识别采用公开的Mallet软件包中的基于条件随机场模型（Conditional Random Fields，CRF）的英语实体标注工具进行英语命名实体的识别标注；命名实体识别翻译汉英实体翻译对人名和地名：采用字典查询方式进行翻译机构名的翻译：利用基于语块的层次翻译模型；英汉实体翻译对各类实体都采用逐词查询字典的方式进行翻译；所利用的词典主要是LDC2005T34实体词典和LDC2002L27词典。时间数字识别与翻译时间数字识别和翻译主要是利用规则方法，将时间数字