广义对象语义块构成分析研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
广义对象语义块构成分析① 熊 亮 中国科学院声学研究所 北京 100080 26.corn bright—bear@1 摘要:语义块构成分析是句类分析三部曲中的重要一环,直接涉及语句局部 联想脉络的生成,同时对句类分析的成败也具有重大影响。池毓焕的博士论文对 显含串并联标记符(14型概念)的这一类型语串的构成进行了较为深入的研究。本 文尝试将不带14型概念的语串也纳入统一处理。从概念符号入手,通过对广义对 象语义块(以下简称GBK)中语义单元概念符号的考察,总结归纳出了语义单元之 间先后组合次序的若干规律,同时分析了这些规律的特征,提出了自动识别和处 理的策略,从而初步探索出一条对GBK内部构成进行分析的方法。然后结合具体 语料阐述了这些规律的应用价值,同时对不足和例外的地方进行了剖析,提出了 下一步工作的方向。 关键词:广义对象语义块(GBK),概念类别,语义块内部构成,名词短 语(NP) 一、引 言 短语是汉语中联结词语和句子的中间桥梁,目前面向自然语言理解中的短语 研究多从词类概念和句法功能出发,较少涉及语义。目前对于中文组块的研究主 要侧重于最长名词短语、基本名词短语等的研究,系统的汉语组块及其划分的研 究还很少。传统的短语更多的是被看成词的组合结构,而不是句子的直接构成 单位。 概念层次网络理论首次提出了语义块的概念,认为“语义块是语句的下一级语 义构成单位”。语义块和短语分别代表.了不同角度对词或词组的观察。池毓焕博士 知识创新工程项目“HNC语言知识处理理论及技术”的资助。 的论文探讨了串并联及其组合的类型分布,并利用串并联所特有的标记符进行预 先处理。然而,语串中大量的串并联现象并不显含联结符,在这种情形下如何确 定串并联各自的组合优先性就成为了下一个需要研究的课题。 二、非句蜕GBK——基本名词短语 本文从最基础的部件开始研究,不含动词的GBK是一种常见的情况,因为任 何句蜕分解到最基本的GBK都不再是包含动词的短语成分。最简单的情形是只有 一个名词来充当GBK。然而语言现象常常是复杂的,更普遍的情形是会出现多个 名词嵌套的情形。在这种情形下,识别出词语间的优先组合关系,对于GBK构成 分析是具有很大意义的。 基本名词短语的特点是全部由纯净的名词构成,没有动词体词化的困扰,因 此全然不用考虑句蜕处理,可以只利用局部信息而不上升到句类知识的层面。在 自然语言句子的理解过程中,能否准确地识别其中的名词短语(NP)起了很重要的 作用。按照认知科学的观点,人类必须首先识别、学习和理解文本中的实体或者 概念,才能很好地理解自然语言文本,而这些实体和概念大都是由文本句子中的 名词短语所描述的。因此,如果我们掌握了文本中的名词短语,就可以在很大程 度上把握文本所表达的主要意思。相比英语而言,汉语NP的识别则更为困难,这 是因汉语中的任何句法成分,都可以不经过任何形态变化,只需加上一个结构助 词“的”或者不加任何联结词,就可以充当一个NP的定语而形成一个更长的NP, 这就大大增加了汉语NP自动识别的难度。 目前该领域的工作主要集中于最长名词短语的识别(MNP)和“的”字名词短语, 从这几年来在这方面进行的一些研究实践看,处理效果并不是很理想。而对于名 如不含“的”的情形。 非句蜕GBK构成的分类 在笔者的研究工作中,根据非句蜕GBK子成分构成关系的不同,将非句蜕语 义块分为以下六种原子级构成。 (一)边界标志组合 边界标志包含了数量成分、指代成分。在没有“的”的情形下,它们是GBK的 边界标志。如例1: 例l:我JI提供给I|法院II一份材料。 ToJ—TA+TO+TB+TC “法院”、“一份材料”分别属于TB和TC两个广义对象语义块,数量成分“一 份”成为了GBK边界标记。类似的例子还有“他这件事情”等,TB和TC的概念要 求分属不同类别。 而对“他这个人”类似的例子就不再适用,因为“他”和“这个人”概念类别相同, 均属于P类。因此演变为特泛指组合,属于一个GBK而不再是分属于两个GBK。 【二)修饰组合 修饰型搭配大体上适应于语法学的词性约束规则,用HNC的术语来讲就是 “同行优先”准则——同行的五元组概念和挂靠的(w,p)类概念优先相互搭配。修 饰搭配是GBK中常见的一种搭配,但它和传统意义上的修饰搭配有着很大的区 别。本文把修饰严格定义为属性描述,中心语一定是名词性成分,修饰语为U类 概念或X类概念,可

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档