汉语组块分析算法-清华大学信息技术研究院语音和语言技术中心.PDF

下载文档

0
0
约1.34万字
约 6页
2017-09-01 发布于天津
举报
版权申诉
保障服务

汉语组块分析算法-清华大学信息技术研究院语音和语言技术中心.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

汉语组块分析算法-清华大学信息技术研究院语音和语言技术中心

汉语组块分析算法* 周强智能技术与系统国家重点实验室清华大学计算机科学与技术系，北京100084 摘要：本文提出了一种高效的汉语组块分析算法。它通过采用基于规则的有限状态成分组分析和基于统计的词界块界定预测相结合的处理策略以及多个有限状态成分组转换器相互配合的处理机制，在对真实文本的汉语句子的组块自动识别实验中取得了较好的处理效果。关键词：词界块，成分组，有限状态模型，界定预测模型，部分分析。 1. 引言句法分析是自然语言理解的基础。针对完整的句法分析方法在分析大规模真实文本中遇到的困难，许多研究人员开始尝试着把一个完整的句法分析问题分解为几个易于处理的子问题，以逐步降低完整句法分析的难度，提高分析效率。在这方面，一个很成功的例子是将词性标注(Part-Of-Speech Tagging)从句法分析中分离出来。通过利用局部语境信息进行基于规则或基于统计的词类排歧，目前的大部分词性标注工具对真实文本的标注正确率都达到了 96% 以上，为进一步进行句法分析打下了很好的基础。针对汉语的特点，我们进一步提出了一个句法描述能力介于线性词语/词性标记序列和完整句法树表示之间的浅层句法知识描述体系：组块分析体系。它通过引入词界块和成分组概念，将成分边界辨识问题从完整的句法分析任务中分离出来，形成具有不同层次的成分边界限制信息的组块描述体系。作为一种基本上独立于各种句法描述形式的句子拓朴结构，在此基础上可以方便地进行更深层次的句法知识自动获取和自动句法分析方法研究。本文主要侧重于介绍这种组块描述体系的自动分析算法，即给定一句经过正确切分和词性标注处理的汉语句子，如何构造一个有效的自动分析算法，快速分析出句子的组块描述形式。在下面的几节中，第2 节简单介绍了组块分析体系的基本内容，并给出了一个具体的描述实例，第3 节概要介绍了组块分析算法的主要设计思想和基本处理流程，第4 节则对组块分析体系中的一个重要成分组：并列结构的自动识别算法进行了比较详细的介绍，第5 节给出了目前的一些实验结果，最后的第6 节是结束语。 2. 组块分析体系介绍给定一句经过正确切词和词性标注处理的汉语句子，我们的组块分析体系试图对其中不同层次的成分边界信息给出较为详细的描述，它主要包括以下两部分内容： 1) 词界块WB （Word Boundary Block ）：描述了句子中每个词语所处的成分边界位置信息，简记为wb = w t , b ，i ∈[1, n]，其中w 为句子中的第i 个词，t 为它的词性标 i i/ i i i i 记，bi 可取值0,1 或2 ，分别表示此词处于某个句法成分的中间位置、左边界或右边界。 2) 成分组CG （Constituent Group ）：描述了句子中具有如下分布特点的一些特殊成分区域：I) 区域中的词界块只能与区域中的其他词界块发生句法作用，II) 整个区域作为一个整体与句子中的其他成分发生句法作用。简记为cg = lp , rp , ctag ，j ∈ [1, k]，表示句子 j j j j 中总共有k 个成分组，lp 和 rp 分别表示其中第j 个成分组在句子中的左边界和右边界词位 j j * 本项研究得到国家自然科学基金资助，项目号为 1 置，ctag 则为其标记。目前我们总结的成分组主要有以下几种： j 并列结构和并列成分（ctag ∈ {CS,CC}），如：{ 哥哥和弟弟 } CS 固定搭配组合及内部结构（ctag ∈ {LP , MD }）