网站大量收购独家精品文档,联系QQ:2885784924

中国专利文献汉-英机器翻译(CPMT)系统简介.docVIP

中国专利文献汉-英机器翻译(CPMT)系统简介.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国专利文献汉-英机器翻译(CPMT)系统简介 中国专利信息中心 袁明跃 高立华 近年来,中国专利申请量的增长及其在全球专利活动中所占的份额令人瞩目在世界知识产权组织专利合作条约框架下,2000年3月,日本特许厅(JPO)推出在线翻译服务,目前已可提供1993年起已公开的发明和实用新型专利全文数据的机器翻译英文结果。2006年11月,韩国知识产权局(KIPO)发布K2E-PAT服务,集韩-英专利文献机器翻译和KIPRIS(韩国工业产权信息服务)数据库跨语言检索为一体。对中国而言,开发面向中国专利文献的汉-英机器翻译系统、满足国外用户对中国专利文献的需求,已经成为迫切之需。以此为背景,中国专利信息中心成立了联合课题组,与国内外相关单位开展密切合作,完成了具有全自动在线服务功能专利文献汉-英机器翻译系统。 /sipo_English/)和中国专利信息中心网站()对外发布并进入试用阶段,接受国内外用户的试用、评测Web提供全自动在线自然语言语言理解的语义描述体系,使获得的能力语义块是句子的语义构成单位语义块从空间向目标语言的映射类型格式转换语义块构成变换语义块的位置调整语句排序调整。无缝,统一包装为Web服务的机制4 专利文献检索 图5 检索结果浏览 图6 著录项目数据及文摘 图7 全文机器翻译结果 2.跨语言检索机制   从图6可以看出,在集成了机器翻译系统和专利检索系统的Web服务机制下,CPMT系统的机器翻译被嵌入检索过程实时完成。换言之,检索系统所提供的检索服务与机器翻译系统所提供的机器翻译服务经整合成为CPMT系统的英-汉跨语言检索服务。 常规的英-汉跨语言检索模式包括两种,第一种是“检索式翻译”模式,其步骤为:将英语检索式翻译为汉语检索式、检索汉语数据库,再将检索到的结果译为英语;第二种是“文献翻译”模式,其步骤为:将全部汉语文献预先翻译为英语,再用英语进行检索。前者的特点是实现相对容易,但文献的翻译必须在检索过程中即时实现,且检索式较短时可能会引起歧义,必须依赖于复杂的技术保证检索式的有效翻译转换;后者的特点是文献的翻译与存储可脱离检索过程脱机完成,但翻译量巨大。 与上述两种常规模式不同,CPMT系统进行跨语言检索的机制如下:作为先决条件,在检索系统所使用的中国专利信息数据库中,所收录的中文专利全文数据均附带有英文著录项目数据和文摘,这些英文数据来自于专利数据加工流程,均为精确人工翻译结果。CPMT系统根据用户输入的检索词或检索式,直接检索数据库中的英文著录项目数据或文摘,并给出检索结果列表;当用户选择查看某篇文献的全文时(如图6所示,点击“Publication Text”),系统对相应的中文全文数据进行机器翻译,并显示英译结果。 由此可见,CPMT系统实现了两种常规跨语言检索模式的折衷。与第一种模式相比,通过在精确翻译的英文数据中使用英文检索式直接检索,避免了检索式翻译转换中的歧义问题,检索结果的可信度大大提高;而与第二种模式相比,通过实时的在线机器翻译,避免了大规模预翻译。这一折衷模式的实现,既是对已有数据资源的充分利用,又能使国外用户的检索需求得到更高程度的满足。 三、系统特性 1. 系统性能 ■ 翻译质量 采用专门针对专利文献制订的量化人工评测标准,经大规模真实专利文献语料的翻译测试及与多家机器翻译系统的比较证明,在可懂度、忠实度、流利度方面,CPMT系统的译文基本能够满足母语非汉语的国外专利审查员等专业人员和一般公众的需求,系统在专利文献领域的翻译水平已体现出明显优势,主要体现在: (1)主要技术领域的术语识别率不低于85%; (2)专利文献中规范性语言的翻译达到较高准确率; (3)在句子切分、词语切分、兼类词、歧义结构、以及在专利文献中更为突出的复杂长句处理等机器翻译难点方面呈现突出能力; (4)全文机器翻译结果实现了对中文专利文献的版式还原,使原始中文专利文献中的特殊格式例如图表、上下标等在译文中均得以保留,从而使译文在内容和形式上均与原文保持高度一致,保证用户对检索翻译结果的充分和正确理解。 ■ 翻译速度 系统占用资源少、运行速度快,在P4处理器、256M内存的PC机配置下,运行时占用内存约6M,翻译速度约8000字/分钟。同时,系统采用分布式部署,支持50个用户的并发访问,平均事务响应时间1S,翻译请求的等待时间完全可以为用户所接受。 容错能力 系统部署以较高容错能力保证用户的正常访问,平均故障间隔时间(MTBF)8760小时平均修复时间(MTTR)1小时。 系统采用开放式体系结构,提供操作管理维护接口支持知识库扩充与维护;实例及模板语料库采用XML统一编码,支持与标准翻译记忆(TM)产品的兼容;同时,系统的分布式部署也采用了可扩展性设计,能够支持更多用户的并发访

您可能关注的文档

文档评论(0)

绿风 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年11月27日上传了教师资格证

1亿VIP精品文档

相关文档