CWMT'08统计机器翻译研讨会自动化所技术报告何彦青2008年11月27日.ppt

CWMT'08统计机器翻译研讨会自动化所技术报告何彦青2008年11月27日.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CWMT'08统计机器翻译研讨会自动化所技术报告何彦青2008年11月27日.ppt

报告提纲 引言 参评系统描述 实验结果 结论 引 言 自动化所作为参评单位之一参加了所有的四个评测任务,即: 新闻的汉英翻译评测任务; 新闻的英汉翻译评测任务; 科技的英汉翻译评测任务 新闻的汉英融合评测任务。 参评系统描述 在这次评测中我们共有四个系统参加,即: 自主开发的基于短语的翻译系统(BPSMT); 开源基于短语的翻译系统(Moses); 基于中心词的概率化句法调序系统Bandore; 基于词语调序的对齐方法融合系统(WRABC)。 BPSMT 模型训练: 语言模型利用开源Srilm工具包来获取四元文法概率信息; 翻译模型主要是根据开源Moses工具包来获取翻译短语表,其中的参数设置都利用Moses工具包的默认设置; 解码算法采用Beam-Search进行单调搜索获取翻译结果。 Moses 模型训练: 利用Moses的默认设置来进行训练解码 只用到了词这一个信息作为特征,没有使用因子模型。 Bandore 作为前端调序处理; 关键思想: 基于中心词的调序,中心词包括动词与名词,调序的候选对象是动词修饰语以及名词修饰语; Bandore 方法概要: 由一个源语言句子得到一棵句法树; 从句法树的根开始递归地考察每一个动词短语和名词短语,并利用最大熵的方法指导训练中心词(动词、名词)的修饰语是否需调至中心词的另一侧。 WRABC WRABC (续) 在基于词的系统融合流程中,词对齐的质量直接关系到系统融合的性能。 现阶段用于系统融合的词对齐包括基于词错误率 (WER)的词对齐和基于翻译错误率(TER)的词对齐; WRABC (续) WER词对齐方法和TER词对齐方法能较好地对齐词序相同的翻译假设。 当对齐的翻译假设间词序有很大不同时,WER词对齐方法完全忽略词序的不同; TER词对齐准则虽然理论上解决了这个问题,但是TER词对齐准则采用的贪心搜索算法,在很多情况下无法实现大范围的词语块的调序。 WRABC (续) 我们使用基于词语调序的对齐方法(WRA)。 找出待对齐的翻译假设和参考对齐之间的所有公共的连续词语块; 进行局部对齐; 在局部对齐关系中寻找交叉的词语块对; 利用已对齐的局部词语块的位置作为参考,对有词序变化的词语块位置进行调整。 WRABC (续) 采用单纯形算法调整参数; 在词对齐时选择的参考对齐是从所有参与融合系统的top-Best中抽取得到: 依次把每个系统的top-Best用BLEU4打分,打分时参考译文为其它系统的top-Best,然后用MBR解码选择得分最高的top-Best为参考对齐; 操作系统性能 评测实验及结果 机器翻译评测 新闻汉英翻译评测; 新闻英汉翻译评测; 科技英汉翻译评测; 系统融合评测 新闻汉英融合评测; 机器翻译评测 数据准备 短语表的获取 开发集的获取 对测试语料的特殊处理 实验结果 数据准备 预处理 对中文数据进行的处理: 中文的分词,ICTCLAS3.0; 全角变半角, 对英文数据进行的处理: 大写转小写 标点符号的分离处理。 短语表的获取 所有机器翻译参评项目的短语表都是利用Moses工具包进行训练获取的,其中的参数都利用Moses工具包的默认设置。 开发集的获取 开发集的获取 新闻评测任务 以SSMT07的测试集作为基准 利用相似度从剩余开发集中过滤一部分开发集 与SSMT07测试集合并 科技评测任务 开发集1:以测试集为基准;利用相似度从科技训练语料中抽取一部分作为开发集; 开发集2:利用测试集跟新闻发布训练中的英汉开发集的相似度来进行筛选过滤出来 把这两个开发集合并成最终用于科技评测任务的开发集。 对测试语料的特殊处理 这次评测使用的是时事新闻语料和科技语料 包含大量的命名实体,包括:人名、地名、机构名、时间、数字及未登陆词 对测试语料进行特殊处理是很有必要的。 对测试语料的特殊处理 对这些实体词进行特殊处理并获得翻译列表,设置一个较大的概率添加到训练获得的翻译短语对中对测试语料进行解码。 命名实体识别翻译 中文命名实体识别 采用[Wu,2005]开发的多知识源融合的汉语实体识别系统进行汉语命名实体的识别; 英文命名实体识别 采用公开的Mallet软件包中的基于条件随机场模型(Conditional Random Fields,CRF)的英语实体标注工具进行英语命名实体的识别标注; 命名实体识别翻译 汉英实体翻译 对人名和地名:采用字典查询方式进行翻译 机构名的翻译:利用基于语块的层次翻译模型; 英汉实体翻译 对各类实体都采用逐词查询字典的方式进行翻译; 所利用的词典主要是LDC2005T34实体词典和LDC2002L27词典。 时间数字识别与翻译 时间数字识别和翻译主要是利用规则方法,将时间数字

文档评论(0)

wendang_12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档