- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概念类别及其在汉英机器翻译中应用
概念类别及其在汉英机器翻译中应用
摘 要:词性作为划分词类的依据一直是信息处理中一项重要的知识属性。但是,词类更多地偏重于词语在句子中的语法功能,而忽略了词语意义对句子分析的作用,语言信息处理需要更有效、更细致的词语分类。为此,本文引入概念类别的信息,并且展示其在汉英机器翻译中的应用。通过具体描述给出概念类别及其与词性的对应关系,指出概念类别可划分为抽象概念和具体概念两大类型,抽象概念中又包括动态概念、静态概念、属性概念和逻辑概念,并对概念的所指及应用做出了描述。随后,本文对概念类别与词性的关系和差别做出了解释,并给出了概念类别与词性的对应关系。最后,本文描述了概念类别信息在汉英机器翻译中的具体应用,指出概念类别在汉英机器翻译的分析模块和转换模块(如小句转换、Eg识别、格式转换和辅块识别等)中均发挥着重要的作用。
关???词:词性 概念类别 机器翻译
一、引言
词性作为划分词类的依据一直是信息处理中一项重要的知识属性。在词语处理乃至句类结构分析中占有重要的地位。不过,词类更多地偏重于词语在句子中的语法功能,而忽略了词语意义对句子分析的作用,并且词类划分的标准过于粗略,未能从细节上对词语进行描述和区分。在语言信息处理中,对语言现象的分析和研究需要更有效更细致的区分,为此,HNC引入了词语的概念类别的信息。在概念类别中,不仅包含了词类的信息,同时还融入了语义的分类信息,并且构建了汉语词语知识库,对概念类别信息进行了标注。
在汉英及其翻译中,我们对概念类别与词类进行了对照,在源语言(汉语)分析阶段采用词类信息,并将词类信息中的关键类型LV概念作为句子分析的激活点,辅以相应的分析规则,完成目标语的分析。在目标语(英语)生成阶段,由于英语的形态特征比较明显,我们使用词性作为生成的依据,辅以相应的转换生成规则,完成目标语的转换与生成。
本文的工作已经应用于汉英专利文献机器语义翻译引擎中,作为语义翻译引擎的重要基础,发挥着支撑作用。经过测试,语义翻译引擎在小句转换、Eg识别、格式转换、辅块识别、并列结构识别中都有很好的应用效果,使得这些部分分析处理的正确率能够达到80%以上。
二、相关工作
概念层次网络理论[1]是一种服务于语言信息处理的关于语言的语义处理理论,自该理论产生之初,就已经提出了概念类别的划分方法,用以丰富单纯以词性作为划分词语的标准。
《HNC理论(导论)》[2]中,列出了概念类别划分的具体类型,并配以实例说明。但是概念类别的表述过于繁琐,且未对概念类别进行广义和狭义的区分。
长期以来,基于HNC理论的研究一直将概念类别作为重要的知识属性加以利用,在句类分析系统中,LV概念已经作为句类分析的激活点服务于句子结构的判断和语义块边界的辨识[3]。例:但这些信息未能直接在应用系统中进行检验。
概念关联知识是指概念节点、概念集群、概念类别之间关联性的各级类别表现。这是一张非常烦琐而脉络分明的关系网,其内容构成了概念关联知识库。
这些研究和应用都是在一种语言范围之内,尚未涉及到两种语言之间的对应问题。
张克亮[4]基于HNC理论开展了面向机器翻译的汉英句类及句式转换研究,探讨汉英句类及句式转换的一般性规律。李颖[5]研究了HNC机器翻译中语义块构成变换问题。
这些研究也仅停留在理论研究和构想阶段,对概念类别的描述仅是理论层面的,而且是片面的。对概念类别和词性之间的关系并未做具体的考察和对应,也未能对概念类别和词性两种信息在实际应用中的表现做出清晰的比较和判断。
本文集中于语义知识库中概念类别知识属性的研究,目前语义知识库已经包含了5万常用词语的知识,覆盖了500篇专利文献。另有30万专利领域词库,共计35万条词语。知识库服务的对象主要是汉英专利机器翻译系统。文本为说明概念类别而举的例子也都来自专利文献。
三、广义概念类别与狭义概念类别
本文的研究是建立在汉英机器翻译应用的基础上,所得的研究成果直接应用于汉英专利机器翻译的实际中。概念类别作为知识库中一项重要的知识属性,对其的标注直接得到翻译系统的检验,根据调试过程中反馈的结果对知识库进行修改和调整,做到知识库和翻译系统同步更新,极大地提高了翻译系统的性能。
概念类别是表述概念的语义类别特征的符号。概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识,是进一步调用其他知识的激活信息。
我们根据词语在汉英机器翻译具体应用中的表现,对概念类别进行了重新的调整和分类。首先,我们把概念类别划分为广义和狭义两大类,以服务于不同层面的语义分类需要。
(一)广义概念类别
广义概念类别是对词语语义信息的广义概括,可以看作是对词语语义的一级分
您可能关注的文档
最近下载
- 摩擦学基础知识-磨损.ppt VIP
- 景观规划设计(第3版)课件:滨水景观文化设计.pptx VIP
- 甘肃省兰州市城关区树人学校2022-2023学年八年级上学期期中物理试卷(含答案).docx VIP
- 2018-2019学年甘肃省兰州市树人中学八年级(上)期中物理试卷.docx VIP
- 2020-2021学年甘肃省兰州市城关区树人中学八年级(上)期中物理试卷(含解析).doc VIP
- 十五五规划(2026-2030年)是国家未来五年发展的战略性蓝图。以下关于十五.docx VIP
- 电工基础试卷a卷及答案.doc VIP
- 甘肃省兰州市第三十五中学2022-2023学年八年级上学期期中物理试卷(含答案).docx VIP
- 北京市通州区2024-2025学年七年级上学期期末生物学试题(含答案).pdf VIP
- 北京市通州区2024-2025学年七年级上学期期末考试英语试卷.docx VIP
原创力文档


文档评论(0)