- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
厦门大学四届机器翻译研讨会评测系统描述
厦门大学第四届机器翻译研讨会评测系统描述 陈毅东 史晓东 周昌乐 {ydchen, mandel, dozero}@xmu.edu.cn 厦门大学信息科学与技术学院智能科学与技术系 2008年11月 北京 提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结 提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结 概述 厦门大学参加了 汉英新闻领域机器翻译(开放) 汉英新闻领域系统融合 英汉新闻领域机器翻译(受限) 英汉科技领域机器翻译(受限) 使用的模型 汉英机器翻译:短语,短语+规则 英汉机器翻译:短语+规则、规则 提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结 机器翻译系统概要(1) 统计翻译系统 短语模型 对数线性模型 融合特征:短语翻译概率(正向/反向)、词汇化短语翻译概率(正向/反向)、语言模型、长度惩罚因子、短语惩罚因子 单调解码,动态规划方法 汉英机器翻译评测中,我们的短语翻译系统则结合了基于组块的词语调序模型 机器翻译系统概要(2) 规则翻译系统 基本模块:词法分析?句法分析?词义消歧?译文生成 采用依存文法描述英语和汉语,文法由程序来描述 词典条目大约10万 结合了部分TM技术 没有专门针对这次评测进行调整 提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结 系统融合方法概要(1) 早在1994年就有研究者研究多引擎翻译系统。 多引擎系统的研究可以粗略地分成两类: 简单地在各系统的输出中选出一个最佳的结果。 从各系统的输出中各选取最佳片段并构成新的结果。 由于融合粒度更细,第二类方法常常可以获得更好的融合效果。 第二类系统融合技术需要解决的两个问题: 必须从候选翻译中抽取出与原文相对应的翻译片段。 必须在这些可用的翻译片段中筛选并组合成新的翻译结果。 系统融合方法概要(2) 参考文献 Chen Yu, Andreas Eisele, Christian Federmann, Eva Hasler, Michael Jellinghaus, and Silke Theison. 2007. Multi-Engine Machine Translaiton with an Open-Source Decoder for Statistical Machine Translaiton. In: Proceedings of the Second Workshop on Statistical Machine Translation, Prague, 193-196. 提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结 评测数据与结果(1) 使用的外部工具 GIZA++工具包对双语语料进行词对齐,训练模式是15H53545 使用SRI语言模型工具包来训练语言模型 使用CRF++工具包来训练组块分析器(汉英测评中)。 评测数据与结果(2) 汉英新闻机器翻译评测 数据 结果 评测数据与结果(3) 汉英新闻系统融合评测 根据诸系统在ssmt2007测试集上的成绩仅挑选了前4名的系统参与融合 采用的数据情况同汉英新闻机器翻译评测 结果 constrast系统使用和汉英新闻机器翻译评测相同的参数,primary系统则将长度惩罚因子参数增加到原来的两倍。 评测数据与结果(4) 英汉新闻机器翻译评测 数据情况 结果 评测数据与结果(5) 英汉科技机器翻译评测 数据情况 结果 xmu-constrast-memt2系统仅使用科技语料 提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结 小结 本次评测我们参加的系统在技术上没有太多的进步。 本次评测我们所使用的系统融合技术太简陋,是将来努力的重点。 谢谢大家! 陈毅东 史晓东 {ydchen, mandel}@xmu.edu.cn * * 使用的融合方法和系统融合评测中使用的相同 平行语料库 候选翻译 原文 新句对 短语表 短语模型训练模块 单语语料库 语言模型 语言模型训练模块 短语翻译解码模块 译文 18M词 275M词 1.8万句 96万句对 量 双语句库的英文部分 LDC2007T07 (xinhua part) LDC2005T01 训练数据(common部分), LDC2005T06, LDC2003E07, LDC2006T04, LDC2003T17, LDC2004T07, LDC2002T01, LDC2002E18, LDC2003E14 来源 树库 英语语料 双语句库 7.8401 7.5082 NIST5 5341.25 6935.44 时间(s) 0.2390 0.2412 BLEU4
您可能关注的文档
- 南海区艾滋病筛查阳或可疑样本上送及感染者综合管理培训班.ppt
- 假期申请单2.doc
- 保险单(企业财产).doc
- 做党和人民满意的好老师征文-师德征文.doc
- 南海实验高 中 翁斐琴.27【精品PPT】.ppt
- 南海实验高中翁斐琴7.ppt
- 保卫领导干部三严三实专题研讨发言稿.doc
- 南山“创业之星”赛前赛后那些事儿创造 感动 健康【精品PPT】.ppt
- 做到严以修身是党员干部做人处事之根本.doc
- 信访系统学习严以律己心得体会2015.doc
- [中央]2023年中国电子学会招聘应届生笔试历年参考题库附带答案详解.docx
- [吉安]2023年江西吉安市青原区总工会招聘协理员笔试历年参考题库附带答案详解.docx
- [中央]中华预防医学会科普信息部工作人员招聘笔试历年参考题库附带答案详解.docx
- [保定]河北保定市第二医院招聘工作人员49人笔试历年参考题库附带答案详解.docx
- [南通]江苏南通市崇川区人民法院招聘专职人民调解员10人笔试历年参考题库附带答案详解.docx
- [厦门]2023年福建厦门市机关事务管理局非在编工作人员招聘笔试历年参考题库附带答案详解.docx
- [三明]2023年福建三明市尤溪县招聘小学幼儿园新任教师79人笔试历年参考题库附带答案详解.docx
- [哈尔滨]2023年黑龙江哈尔滨市木兰县调配事业单位工作人员笔试历年参考题库附带答案详解.docx
- [上海]2023年上海市气象局所属事业单位招聘笔试历年参考题库附带答案详解.docx
- [台州]2023年浙江台州椒江区招聘中小学教师40人笔试历年参考题库附带答案详解.docx
最近下载
- S7-1200 G2 可编程控制器-系统手册2024.12.pdf VIP
- 2023年35届江苏金钥匙科技竞赛高中初赛试题真题(含答案).pdf VIP
- 一种铁稳定富硒陶瓷材料及其制备方法.pdf VIP
- J_BT 8727-2017 液压软管总成.pdf
- 电磁学全套课件.pptx VIP
- 2021最新冀人版科学四年级下册教学计划及教学进度表.docx
- T_CIECCPA 053—2024 化学吸收法捕集燃煤烟气二氧化碳装备 再生富碳气体纯化设备.pdf VIP
- 重点中学内部职权流程图.docx
- 部编版道德与法治四年级(下)单元分析单元备课课程纲要 .pdf VIP
- 《中学生日常行为规范》知识竞赛试题(答案) .pdf
文档评论(0)