现代汉语短语本位语法体系在机器翻译中的应用及其问题-ICL,PKU.doc

现代汉语短语本位语法体系在机器翻译中的应用及其问题-ICL,PKU.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代汉语短语本位语法体系在机器翻译中的应用及其问题-ICL,PKU

现代汉语短语本位语法体系 在机器翻译中的应用及其问题① 詹卫东 常宝宝 俞士汶 【摘要】本文全面介绍了在一个汉英机器翻译系统中,以现代汉语短语本位语法体系为背景构建形式化词典和句法分析规则的情况,同时也指出了面向机器翻译,汉语短语本位语法体系有待进一步研究的问题。 一、引言 现代汉语语法理论依据在句子观和析句方法上存在的根本不同,可区分为句本位和短语本位(也可称作词组本位)两大体系。关于这两大体系在理论方法上以及教学实践上的优劣,语言学界已有过广泛深入的讨论,而将这两个不同的语法体系应用到自然语言处理研究方面,特别是机器翻译领域,其各具特色之处,以及是否存在高下之分,却还未见有详细比较。此外,有关以句本位语法体系为基础构造汉语形式语法系统,已有专著论文介绍。而以短语本位语法体系为基础构造汉语形式语法系统的研究文献则相对较少。 本文尝试对现代汉语短语本位语法体系在一个书面语汉英机器翻译系统中的应用做初步的介绍。此外,面向计算机自然语言处理对语言研究提出的新要求,也指出这种语法体系有待进一步改进的地方。 二、基于短语本位语法体系的形式语法系统的基本框架 2.1 基本原则 (1) 功能分类思想 短语本位语法体系以语法功能为主要标准对词进行分类,对短语的分类,则既有从结构角度分的,如述宾短语、述补短语、偏正短语等等;也有从功能角度分的,如名词性短语、动词性短语等等。前者在语法研究与教学中,用得相对比较多和比较成熟一些。但在构造形式语法系统时,则需全面贯彻功能分类思想。所谓功能,实际上是对一个语言成分能够出现的位置的高度概括,也即是对一个语言成分跟其他语言成分组合能力的抽象描述。功能分类的结果可以直接说明一个语言成分怎样向外组合。所谓结构,则是对一个语言成分内部组成成分及其相互关系的描述。结构分类的结果可以直接说明一个语言成分内部构造的情况,但对一个语言成分怎样向外组合却是间接影响。而语法系统的直接目的同时也是最终目的,就是要说明一个语言成分如何跟另一个语言成分组合构成一个更大的语言成分。显然,从词到短语都宜采用功能类标记,用以组织形式语法系统。 (2) 功能实现思想 短语本位语法体系认为在语言成分的各级单位中,从词到短语是组成关系(composition),从短语到句子是实现关系(realization)。在构造形式语法规则系统时,我们有意识地在一定程度上模糊词和短语的差别,认为从词到短语,除组成关系外某些时候同样也可以有实现关系。句子作为目前形式语法系统处理对象中的最大单位,从整体结构上看是由短语加上其后标点符号(只能是三类点号“。?!”中的一种)组成的;仅就其中心成分短语而言,句子跟短语是同构实现关系。 2.2 基本标记符号 (1)为处理现代汉语中的语素字,形式语法系统中包括一个语素标记:g (2)语素不再分类。现代汉语词分为18类。词类标记如下: 名词 n 代词 r 连词 c 处所词 s 时间词 t 方位词 f 数词 m 量词 q 助词 u 区别词 b 状态词 z 形容词 a 动词 v 副词 d 介词 p 叹词 e 语气词 y 拟声词 x (3)我们按功能标准将现代汉语短语分为11类。短语标记如下: 名词短语 np 数量短语 mp 时间词短语 tp 处所词短语 sp 数词短语 mcp 动词短语 vp 介词短语 pp 形容词短语 ap 副词短语 dp 单句型短语 dj 复句型短语 fj (4)整句是目前语法系统处理的最大单位。标记为:zj 2.3 基本组成 形式语法系统包括两大部分:词典和规则。词典对词语的语法语义信息作详细记录;规则对汉语短语组合类型和组合条件加以说明。以下我们对词典和规则的内容展开论述。 三、词典:句法语义属性特征描述 机器词典中以复杂特征集(complex feature set)的方式对词语的句法语义属性进行描述。目前我们词典中的句法语义信息可以大致分为三类,在不同程度上体现了功能思想。 (一) 基本信息:一个词所属词类、语义类。这是对该词的功能作最一般性的概括。 (二) 搭配信息:一个词跟其他成分的组合能力。这包括句法和语义两方面。 (三) 位置信息:一个词充当句法成分的能力。 下面试以词典中对名词“白杨”的描述为例说明: $$ 白杨 ** {n} n $=[ 名词子类:na,个体量词:棵|株,前名:是,前动:否,后名:是,名状语:否, 名主语:是,名宾语:是,名谓语:否,临时量词

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档