基于语义翻译记忆系统设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义翻译记忆系统设计

基于语义翻译记忆系统设计   [摘要]在翻译记忆系统中,句子的语义理解是关键。提出一种基于本体的英汉翻译记忆系统设计思想,分析本体在翻译记忆中的优势,利用本体的语义信息能提高翻译的准确性。   [关键词]翻译记忆 本体 语义   中图分类号:TP391.1 文献标识码:A 文章编号:1671-7597(2008)0710156-01   由于语言的复杂性和多变性,机器翻译的准确度很难得到提高,而翻译记忆利用计算机存储已经翻译好的双语对照的语料参与翻译过程,注重提高已翻译的语料的复用,具有一定的实用性。文中以本体为语义框架,利用本体的语义信息,提出了一种基于语义的英汉翻译记忆系统的设计方法。      一、基于本体的翻译记忆系统的总体要求      翻译记忆系统处理的对象是英汉双语语料。构建面向翻译记忆领域的本体,需要考虑到语料文本的特点以及与其它领域本体不同之处,一般的应用领域的本体主要描述其名词性概念,而面向机器翻译或翻译记忆系统的本体需要对语料中名词、动词、形容词三类实词进行描述。翻译记忆系统对本体的要求如下[1]:      (一)语言独立性   本体不能指定为任何一种自然语言,不能成为不同语种间的转换字典,但为方便起见,可以用某一种语言的符号来标记。      (二)独立推动性   概念获取不是受某种语种的词典支配的,而与面向的领域范围相关。      (三)概念结构   需提取三类实词对应的概念。       (四)丰富的概念内部关系   不能仅是概念间的层次关系。      (五)通用的上层结构   即使是在一个相当狭窄的领域范围内,也同样需要从更高、更通用的层次来描绘知识,这样构建出来的本体才能够实现最大程度的共享和重用,方便今后的扩展。      二、系统设计思想      (一)本体的构建方法   系统描述的对象是计算机领域知识,建立领域知识本体包括下面4个步骤:   1.确定本体的领域和范围,列举出本体中重要的术语和概念。系统从“计算机专业英语”文献中提取出50多个概念。如:软件系统、硬件系统、外、处理器、内存、操作系统等。   2.建立本体框架。要生成基于本体的术语词典,就要根据确定的领域本体涉及的重要概念(主要是术语)以及概念的属性,建立概念的层次结构,最后确定概念间的关系和公理的表示。   3.定义领域中概念及概念之间的关系,从建立的概念中,选择那些独立存在的对象所对应的概念,运用术语来表示。这些术语将以类的形式组织到本体的类的层次分类系统中去。   4.对领域本体编码、形式化。选用合适的本体描述语言对建立的领域本体进行编码、形式化。本系统采用OWL语言进行描述。      (二)翻译记忆库中的双语语料的存储   翻译记忆库中所收录的所有双语语料均以XML语言作为编码元语言,按照北京大学汉英双语语料库的标记规范来管理。英中文分别用两个文件存放,对齐关系通过句子标记对…下的属性id来描述,原文句子与对应译文文件中句子的对应模式用对齐单位标记下增设一个属性no。具体如图1所示。      (三)语义本体在翻译记忆系统中的作用   在传统的翻译记忆系统中,翻译记忆库是知识库的主要组成部分,记忆库中记录了双语语料,而在基于语义的翻译记忆系统中本体和记忆库共同构成知识库,为语义分析提供结构化、形式化的领域知识。其作用表现在:   1.为词汇提供语义概念:为语料中的词汇提供了对应的概念,尤其是多义词,不同的意向均有不同的概念与之对应,即使是不同语种的语料也可以共享知识。   2.为翻译记忆系统提供专业领域知识。领域本体描述的是一个特定领域的相关知识,在本文中是描述的计算机领域的概念及其关系。   3.提供语义相似的查找。翻译记忆系统的关键是输入语句与翻译记忆库之间的相似匹配,要提高句子之间的匹配率,关键是语义上的匹配,本体之间的概念、关系及公理可以用来处理语义问题。         三、结束语      文中分析了本体在翻译记忆系统的优势,将本体运用到翻译记忆系统中,利用领域本体提供的丰富的语义信息,可以提高翻译记忆系统的语义处理能力和匹配率。      参考文献:   [1]Kong Hyunjang, Hwang Myunggwon, Kim Pankoo. A New Methodology for Merging the Heterogeneous Domain Ontologies Based on the WordNet. International Conference on Next Generation Web Services Practices (NWeSP05),Aug.2005:235~2

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档