汉语句子的组块分析体系.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语句子的组块分析体系

汉语句子的组块分析体系* 周强 孙茂松 黄昌宁 智能技术与系统国家重点实验室 清华大学计算机科学与技术系,北京100084 摘要:本文介绍了一种介于线性词序列和完整句法树表示之间的浅层句法知识描述体系:组 块分析体系,并详细讨论了其中两大部分:词界块和成分组的基本内容及其自动识别算法。 在此基础上进行的一系列句法分析和知识获取实验证明了这种知识描述体系的实用性和有 效性。 关键词:词界块,成分组,部分分析,句法分析。 1 引言 句法分析是自然语言处理研究中的重点和难点。针对完整的句法分析方法在分析大规模 真实文本中遇到的困难,许多研究人员开始尝试着把一个完整的句法分析问题分解为几个易 于处理的子问题,以逐步降低完整句法分析的难度,提高分析效率。这其中一个很成功的例 子是将词性标注(Part-Of-Speech Tagging)从句法分析中分离出来。通过利用局部语境信息进 行基于规则或基于统计的词类排歧,目前的大部分词性标注工具对真实文本的标注正确率都 达到了96% 以上,为在此基础上进一步进行句法分析打下了很好的基础。 依据同样的研究思路,Steven Abney 提出了块分析(chunk parsing)的策略[Abn91],通过 引进句法块(chunk)概念,他将句法分析问题分为三个阶段: 1) 块识别:利用基于有限状态分析机制的块识别器(chunker)快速识别出句子中所有的 块。 2) 块内结构分析:对每个块内部的成分赋予合适的句法结构。 3) 块间关系分析:利用块连接器(attacker)将各个不同的块组合成完整的句法结构树。 这样,一方面由于对不同的子问题的准确功能定位,可以独立地选用不同的语言模型和 搜索策略加以分析处理;另一方面,通过在块层次上进行自底向上的块间关系分析和自顶向 下的块内结构分析,可以大大提高整体分析效率,达到降低句子分析难度的目的。 块分析策略的精髓在于寻找到合适的切入点,将完整的句法分析问题分解为句法拓朴结 构分析和句法关系分析两个子问题。Steven Abney 在研究英语分析过程中发现了这样一个现 象:本来可以很自然地期望短语结构(phrase structure)在音律结构(prosodic structure)边界预测 中发挥重要作用,但事实上,传统的短语结构描述与音律结构以及一些心理语言学家提出的 语言应用结构(performance structure)之间存在着许多不一致现象[Abn92]。为解决这个问题, 他提出可以将标准的短语结构描述分解成两大部分:1) 一组直接成分块,即 chunk ,2) 成 分块之间的句法依存(dependance)关系,从而在直接成分块和音律结构的φ-短语之间建立了 很好的一一对应关系[Abn95]。将这一思想不断发展和完善,逐渐形成了他独特的块分析体 系。 汉语的句法体系是在大量吸收和借鉴英语句法描述体系的有关内容和知识的基础上建 立起来的。几十年来,尽管许多汉语语言学家进行了艰苦的努力,提出了一些有效的汉语句 法分析方法,如:中心成分分析法、层次分析法等,但究竟其中哪种方法更适合于汉语还存 在着许多争论。另外,对于汉语句法体系中的一些基本问题,如:汉语词类的确定,句法描 述体系的建立等,还有许多值得商榷之处。汉语句法研究的这种现状,给进行汉语信息处理 * 国家自然科学基金资助项目(编号),中国博士后科学基金资助项目。 1 研究的人员带来了许多不便。在这种条件下,进行与 Abney 的研究相类似的汉语浅层句法 知识描述体系的探索,就显得很有现实意义了。 本文针对汉语分析的特点,提出了一种汉语句子的组块分析体系。它通过引入词界块和 成分组概念,将成分边界辨识问题从完整的句法分析任务中分离出来,形成具有不同层次的 成分边界限制信息的组块描述体系。作为一种基本上独立于各种句法描述形式的句子拓朴结 构,在此基础上可以方便地采用不同的句法分析方法产生句子的不同分析结果,如:分析结 构树、依存关系树等。 在下面的几节中,第2 节详细介绍了组块分析体系的基本内容,包括词界块定义和成分 组描述,第3 节介绍组块分析体系的一个

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档