- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向奥运的汉英RBMT与EBMT研究
蒋宏飞 蒋宏飞,男,1982年生,在读硕士研究生,主要研究方向是机器翻译。
蒋宏飞,男,1982年生,在读硕士研究生,主要研究方向是机器翻译。
(哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001)
摘要:介绍了采用基于实例的方法和基于规则的方法在面向奥运的汉英机器翻译系统的最新进展。揭示了二者不同的翻译处理过程和翻译知识学习机制。通过2003年和2005年两次863汉英测试的结果比较了二者的性能差别。采用4元Bleu指标作为评分标准,在2005年863评测中RBMT系统的篇章类得分为0.1056,对话类得分为0.1714;EBMT系统的篇章类得分为0.0718,对话类得分为0.1454。
关键词: 机器翻译、规则、实例
Olympics Oriented RBMT vs EBMT
Jiang Hongfei Yang Muyun Zhao Tiejun
(School of Computer Science and Technology, Harbin Institute of Technology Harbin 150001)
Abstract: This paper presents the latest progress in example-based method and rule-based method for Olympic oriented Chinese-English machine translation. It further describes the detailed translation knowledge modeling and translation operation. Experiments on the 863 test-set in 2003 and 2005 reveal their performance differences. Using BLEU as a metric, the RBMT system achieves 0.1056 in the essay category and 0.1714 in the dialogue category while the EBMT system gets 0.0718 and 0.1454 respectively.
Keywords: machine translation, rule, example
1 语言资源和工具
哈尔滨工业大学机器智能与翻译研究室分别采用基于规则和基于实例的方法开发了汉英机器翻译系统。在这两个系统开发中均采用了以下语言资源和语言分析工具:
汉英翻译词典:共有88,373个词条,提供了汉语词性、名词的简单语义信息、英语译文等信息。该词典提供汉语分词时所需的词表,并提供汉英翻译所需的译文。其中汉语词性符号共计53个,其中10用于汉语标点符号。
汉语分词-词性标注工具:主要技术采用了HMM,并在处理过程中采用了多步处理技术,细节详见文献[1]。
名实体识别:系统中没有独立的名实体识别模块。但是在分词过程中针对人名、地名和外国译名进行了未登录词识别,详细细节但见文献[2]。对于时间、机构短语则留给句法分析模块识别。
汉语句法分析:该工具采用基于头驱动的PCFG模型,训练语料为本单位开发的2万句汉语树库,详细细节参见文献[3]。
汉英自动词对齐:词对齐工具使用了包含81818个词条的英汉对译词典,汉语分词采用了上面介绍的工具。具体对齐过程采用了统计和词典相结合的方法,细节详见文献[4]。该工具在今年的863汉英词对齐评测结果为:精确率80.87%,召回率72.20%, F值0.7629。
图1给出了词对齐输入输出的一个示例,其中对齐部分中(x:y)表示第x个英语词对应第y个汉语词。
输入:
10 dollars is for opening the trunk.
10美元是开行李箱的费用。
20 pounds a week, including breakfast.
一周20磅,包括早饭。
输出:
10/1 dollars/2 is/3 for/4 opening/5 the/6 trunk/7 ./8
10/1 美元/2 是/3 开/4 行李箱/5 的/6 费用/7 。/8
(1:1); (2:2); (3:3); (5:4); (8:8);
20/1 pounds/2 a/3 week/4 ,/5 including/6 breakfast/7 ./8
一/1 周/2 20/3 磅/4 ,/5 包括/6 早饭/7 。/8
(1:3); (2:4); (3:1); (4:2); (5:5); (6:6); (7:7); (8:8);
图1. 词对齐
您可能关注的文档
- 基于响应面法的联结翼气动设计及优化.PDF
- 基于城生态文明构建的淮安公共设施设计研究-包装工程.PDF
- 基于基站休眠技术的无线通信网络能源协作策略.PDF
- 基于大学生自我意识特征的高校安全文化建设-中国教育干部网络学院.PDF
- 基于多波长LED阵列激发的三维荧光光谱系统的设计与实现.PDF
- 基于家校合作评价反馈提升五年级学生岗位责任感的实践研究.PDF
- 基于小波分析和模板匹配的心律失常检测算法.PDF
- 基于工程教育认证的卓越工程师教育培养计划质量评价探析.PDF
- 基于平均路径长度的语音识别算法的研究与仿真-南京信息工程大学学报.PDF
- 基于微信与iBeacon的图书馆室内定位的研究与实现.PDF
- 基于正交处理的网络编码方法及其性能分析Performanceanalysisofa.PDF
- 基于模糊集合理论的汽车电喇叭缺陷风险可能性判定.PDF
- 基于汉英双语平行语料库的汉语言语幽默英译研究-南华大学学报.PDF
- 基于深度学习的MOOC论坛探索型对话识别方法研究-图书情报工作.PDF
- 基于深度学习的人脸检测系统设计文档.PDF
- 基于深度学习的输电线路故障类型辨识-中国电机工程学报.PDF
- 基于混合DBNN-BLSTM模型的大词汇量连续语音识别-纺织高校基础.PDF
- 基于灰色关联分析的相对熵集结模型-西北工业大学学报导航页.PDF
- 基于物理与美术平行发展史的学科融合教学模式研究-物理通报.PDF
- 基于牦犘37的ìí压监测系统研究与设计-电子测量技术.PDF
最近下载
- 公用设备工程师(暖通空调)《公共基础》考试(重点)题库200题(含答案解析).docx VIP
- 【中小学】高一上下册古老的声音原始狩猎图课件.pptx VIP
- 2025-2026学年高二化学上学期第一次月考卷1(全解全析).docx VIP
- (统编版2025新教材)语文二年级上册识字3 拍手歌 课件.pptx
- 3晕针晕血的应急预案及处理流程.pptx VIP
- 《消防安全标志设置要求》.pdf VIP
- 《骨髓增殖性肿瘤》课件 .ppt VIP
- 五年级劳动课《包饺子》课件.pptx VIP
- 雁塔区第二小学基础教育学校硬件设施建设三年规划.docx VIP
- 《Access数据库应用教程》教学大纲、授课计划.docx
文档评论(0)