- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉英双向时间跟数字命名实体的识别跟翻译系统1anappr资料
汉英双向时间和数字命名实体的
识别与翻译系统1
翟飞飞 夏睿 周玉 宗成庆
中国科学院自动化所 模式识别国家重点实验室 北京 100190
E-mail: wsknow@ {rxia, yzhou, cqzong}@
摘要:时间和数字命名实体的识别与翻译是统计机器翻译中语料预处理任务的一个重要步骤,对后续的模
型训练和系统性能有重要的影响。本文在考虑汉英两种语言中时间和数字命名实体构成规律的基础上,将
其进行了类别划分并分别制定了相应的识别和翻译规则,最终实现了一个基于规则方法的时间和数字命名
实体识别翻译工具。经实验测试,该工具具备较高的识别和翻译准确率,提高了统计机器翻译系统的性能。
关键词:时间命名实体,数字命名实体,命名实体识别,命名实体翻译,机器翻译
An Approach to Recognizing and Translating
Chinese English Time and Number Named Entities
Feifei Zhai, Rui Xia, and Chengqing Zong
National Laboratory of Pattern Recognition, Institute of Automation,
Chinese Academy of Sciences, Beijing 100190, China
E-mail: wsknow@ {rxia, cqzong}@
Abstract : The technique to recognize and translate time and number named entities is an important pre-processing
step in statistical machine translation (SMT). It certainly influences the performance of an SMT system. This paper
carefully investigates the structural characteristics of time and number named entities in both Chinese and English,
divides the time and number named entities into several kinds and formulates the corresponding rules for
recognition and translation. Ground on this, a rule-based system has been built to recognize and translate the time
and number named entities in both Chinese and English. According to our experiments, the system is shown to
have a high accuracy of recognition and translation, and significantly improves the performance of SMT system.
Keywords: time named entity, number named entity, named entity recognition, named entity translation, machine
translation
1.引言
命名实体(named entity, NE )识别及翻译是信息提取0、问答系统和机器翻译等自然语言
处理任务中重要的基础性问题,在自然语言处理技术走向实用化的过程中占有重要地位。一
1 本论文的研究工作得到国家自然科学基金项目(编号)、国家863 项目(编号:2006AA010108
-4 )和国家支撑计划项目(编号:2006BAH03B02 )资助。
般来说,命名实体识别和翻译的任务就是识别并翻译待处理文本中的三大类名称词汇:实体
类、
您可能关注的文档
- 工作时间跟休息休假资料.ppt
- 工作时间管理课程课件(ppt68页)资料.ppt
- 工作时间管理资料.ppt
- 工作时间资料.doc
- 工作习惯跟时间管理(ppt36页)资料.ppt
- 工作习惯跟时间管理-1010宝安分享-hurry资料.ppt
- 工作习惯跟时间管理资料.ppt
- 工作效率跟时间管理 资料.ppt
- 工作效率跟时间管理_2资料.ppt
- 公交车行程时间预测模型资料.doc
- 2025年广西蓝天航空职业学院高职单招语文2018-2024历年参考题库频考点含答案解析.docx
- 大中小型水库移民后期扶持资金项目(路灯采购安装)投标文件36页.doc
- 2025年广西蓝天航空职业学院高职单招高职单招英语2016-2024历年频考点试题含答案解析.docx
- 2025年广西蓝天航空职业学院高职单招职业适应性测试近5年常考版参考题库含答案解析.docx
- 2025年广西蓝天航空职业学院高职单招职业技能测试近5年常考版参考题库含答案解析.docx
- 大中小型水库移民后期扶持资金项目(太阳能路灯及管材采购)投标文件16页.doc
- 2025年广西金融职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析.docx
- 《福州工艺及艺术》课件.ppt
- 《票据转贴业务》课件.ppt
- 《票据防伪知识》课件.ppt
文档评论(0)