- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章现代汉语np、ap、vp、dj的句法语义规则
第三章 现代汉语 np、ap、vp、dj 的句法语义规则
第三章 现代汉语 np、ap、vp、dj 的句法语义规则
§3.1 短语规则的形式表达
1
本文讨论的短语规则每一条都涉及两部分内容 。一部分是短语的内部构成情况;另一
部分是对这条短语规则所做的详细说明。请看一个简单的例子。
“一件衣服”是一个具体的名词短语。如果用自然语言来描述的话,这个具体的名词短
语对应的抽象规则至少包括这样两部分:(1)汉语中一个名词性成分 (np)可以由数量成分
(mp)加上名词性成分(np)组合而成。(2)要完成这个组合,需要满足的条件至少包括:
其中的 np 可以受量词修饰;并且 mp 中的量词要跟np 对量词的选择要求一致。
上述规则的作用是明显的。它可以接受 “一件衣服”这样合法的汉语 np,而排斥 “* 一
件书”、“* 两个眼光”这样非法的 np。当计算机碰到 a “一件书上没有提到的衣服”、b“两
个眼光很不错的男人”这样的形式时,这条规则能够帮助计算机做出正确的判断。对于 a,
“一件”是修饰“衣服”的,而不是就近修饰名词“书”的;对于 b,“两个”是修饰“男
人”的,而不是就近修饰名词“眼光”的。因为根据词典中已经标明的语言知识,“件”能
跟“衣服”搭配,不能跟“书”搭配,“眼光”根本就不能跟个体量词搭配,所以对于 a 和
b,量词都是修饰距离远的名词,而不是修饰与它距离最近的名词。
这个简单的规则例子是用自然语言进行表述的。人容易理解,但计算机却很难看懂。要
让计算机掌握这样一条规则。最好是将规则以一定的形式语言来进行表述。
自从乔姆斯基提出形式语言理论以来,已经发展出不少用来表述自然语言语言知识的形
式模型。对这些形式模型,本文不作讨论,可参见翁富良等(1998)2 。本文短语规则所用
的形式化表达方法主要有两部分内容,分别对应着规则的上述两个组成部分。一部分是上下
文无关文法产生式(Rewrite Rule),用来描述短语的内部组成模式;另一部分是合一等式
(Unification Equation),用来对一个短语进行详细的说明。对本文规则的形式语言的详
细定义可参见附录一。这里先对规则的一般情况作一些扼要的说明。
上下文无关文法产生式,又叫作转写规则,它的一般形式3为: A - α
其中 A 是非终结符(Non-terminal Symbol),比如上文提到的短语功能类标记 np、vp、
ap、dj、sp、……等等。α可以是非终结符、终结符 (Terminal Symbol)、或由二者组成的
字符串,比如“vp”、“v”、“学习”、“mp np”、“v np”、“vp u的”、“。”……等等。
还是拿上面的例子来说明,它用到的产生式规则是:np-mp np。从组成的角度讲,这
个规则描述了 np 可以由 mp 加 np 组成;从转写的角度讲,这个规则是说,一个 np 可以转写
成 (生成)mp 加上 np 的形式。用这样的有限的转写规则去描述无限的自然语言句子,是乔
姆斯基创立转换生成语法的最高目标。尽管这个理论目标是否合适,以及是否能够达到,目
前尚无定论,但从方法论的角度讲,上下文无关文法规则作为一种刻画自然语言句法结构的
表达手段,至今仍然是形式语法以及自然语言处理实践中的主要模式,很多理论研究和实际
工作都是在这个基础上做一些补充或者调整,参见方立(1993)4 5
,姚天顺等(1995) 。这
里需要说明的是,我们对产生式规则右部非终结符和终结符的个数没有限制,即一棵句法树
可以是二叉的,也可以是多叉的,根据实际需要决定。而且右部终结符还可以有标点符号,
即包含形如“np-np w、 np”这样的规则(这是为了描述像 “电影、音乐、文学”这
样的联合式 np)。限于篇幅,本文对包含标点符号的短语组合暂不加讨论6 。
“合一”是基于复杂特征集(Complex Feature Set)的运算。有关复杂特征集与合一
运算的形式定义,可以参看冯志伟(1995)7 8
文档评论(0)