浅析句群划分的基本依据研究.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浅析句群划分的基本依据① 昊 晨1’2 张 全2 1中国科学院研究生院 北京 100039,2中国科学院声学研究所北京 100080 bjwuchen@126.com,zhq@mail.ioa.aC.cn 摘要:语言知识处理的新发展为语言研究提出了新的要求,为了能够更准确 地获取语义内容,句群研究显得尤为关键。本文结合HNC(概念层次网络)的相关 理论,从句群中各个句子之间的语义关系出发,探寻汉语句群在语言概念空间中 的组合原则及表达特点,得出划分句群的依据,为HNC篇章处理中的语境单元萃 取环节探索道路。文章最后按照不同的语义组合规则,对句群的分布情况进行了 统计,以验证所得的句群划分依据。 关键词:句群,语境单元,HNC理论,计算语言学 一、引 言 以信息检索、机器翻译为研究代表的计算语言学的发展,使得语言学的研究 范围进一步扩大。加强对句群的研究成为语言学新发展的一项重要内容。但是传 统语言学对于句群的研究远远不能满足计算语言学的需要,尤其无法满足计算机 处理的需要。给出形式化的句群处理和认定规则,这是自然语言处理研究——尤 其是基于语义的所要解决的一项重要问题。 HNC理论——语义的形式化描述体系——迈入了篇章处理的新阶段,“句群” 作为篇章在语言空间中的基本单位,需要进行深入的研究,句群的切分则成为首 要解决的问题,它是萃取句群在概念空间中所对应的语境单元信息需要完成的第 一阶段任务,句群划分的结果将很大程度上影响语境单元萃取的结果,尤其是领 域代码的确定。其中,领域代码是HNC用来描述句群在概念空间中的语义信息的 符号体系,包含了领域和领域句类两个方面,领域描述事件核心所归属的范畴, 学研究所创新项目资助。 比如法律、政治等;领域句类则具体地描述了句群的深层语义结构。这样,探讨 “大于句子的语言片断”即句群的组合规律从而服务于句群的划分,也就显得十分 必要了。这里的组合规律就是句群中句子之间的联系及其规律,这些联系可能是 语义上的,也可能是形式上的,本文希望通过对这一规律的研究,形成句群判定 的相关策略。 二,句群 句群是在语义上有逻辑关系、在语法上有密切联系、在结构上有衔接连贯的 一群句子的组合。可见,句群是一组由某一语意中心统摄的,关系密切的句子的 集合体。从语言的表达看,如果表达的意思比较复杂,往往不是用一个句子,而 是用几个句子组成的句群来表达,分成几句话来说。这样要比用一个结构很复杂 的句子更容易让人理解,这也是形成句群的主要原因。 HNC认为:扣题就自然形成句群,句群就是围绕着一个特定概念展开的话 语,“题”就是指一个特定的概念。其中概念是指HNC语言概念空间中的语义表 达,换句话说,句群就是围绕着HNC语言概念空间中的某一语义基点进行描述的 句子的组合,这一定义和语言学的定义没有本质的不同。然而,这一定义同时告 诉了我们抓住牛鼻子的关键,为计算机获取句群描述的中心信息提供了可以操作 的线索。 三、句群的划分 对自然语言的理解处理最终要靠语义,所以句子级的语料标注应以语义为主 导。HNC理论(黄曾阳,1998)建立了自然语言句子语义的表述模式,我们以该理 论模式为指导来对句子的语义进行自上而下的标注,第一阶段的标注内容主要有 三项:(1)旬类,即句子的语义类型;(2)语义块,即句子的下一级语义构成成分; (3)句蜕,即包含在语义块内的句子。 (一)从语义的角度看 语义是划分句群的根本依据,语义的转移标志着旧句群的结束新句群的开始。 诚然,在语言空间的音和形上缺乏明确的标记,而人可以了解句子的意义,通过 概念联想脉络抓住这个隐现之“义”,将表述中心一致的语句归集在一起,自觉形 成句群。HNC概念基元符号体系为把语言空间隐现的义转变成语言概念空间显现 的义提供了有利的手段。本节结合HNC句类体系、概念基元符号体系,从组成句 群的句子语义本身之间的几种主要关系人手来讨论划分句群的依据。当下一个句 子超出这些关系,就可以认为是一个新句群的开始。 语义的并列。并列关系即几个句子分别说出几种事物或同一事物的几个方面, 彼此之间呈横向的平行关系。这种关系在概念空间中表现为:句子句类,甚至语 句格式都是一致的,并列的句子之间特征语义块相关,共享句子的第一个广义对 象语义块。 例1: 春天Il像Il刚落地的娃娃,+~从头到脚都是新的,++它I|生长着! ++春天IJ像0小姑娘,+~花枝招展的,+笑着,+走着! ++春天II像lI健壮的青年,+~有铁一般的胳膊和腰脚,+领着0[

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档