- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
石油、天然气工业
维普资讯
第 1O卷 第 4期 重庆科技学院学报 (自然科学版) 2008年 8月
基于Abney的组块识别方法研究
向毅 王成敏
(重庆科技学院,重庆 401331)
摘 要:用基于Abney的方法来识别汉语 的基本名词短语 ,定义 了一套 比较适合计算机处理的汉语组块体系,设计实
现了一种基于规则、能够分析有限层次的组块 自动识别算法 。
关键词 :句法分析 ;组块 ;有限状态层叠;规则
中图分类号 :TP391 文献标识码 :A 文章编号 :1673-1980(2008)04—0111—03
浅层句法分析(ShallowParsing)[”,也叫组块分析 语语言 自身的特点,采用 了有 限状态层叠的分析方
fChunkParsing),是近年来 自然语言处理领域 中出现 法研究和设计了汉语名词短语的 自动识别 。
的一种新的语言解决策略。浅层句法分析不要求得
1 汉语名词短语的自动识别
到完全的句法分析树 ,只要求识别其 中的某些结构
相对简单的成分,如非递归的名词短语、动词短语 1.1 有限状态层叠
等。这些被识别出来的结构通常称为组块(Chunk)。 有 限状态层叠的基本思想是7[1:把句法分析的
随着语料库技术 的发展 ,来 自概率统计和信息论的 过程分成多个层次,每个层次都只输出一个结果 ,而
许多统计方法作为浅层句法分析 中组块 (Chunk)识 在每个层次内部只使用简单的有限状态 自动机来分
别的概率评价模型有:基于隐马尔科夫模型(Hidden 析。有限状态层叠 自动机是一种有效的句法分析算
MarkovModels,HHM)翻 的方 法 ,互 信息 fMutual 法,不仅分析效率高,而且可在不使用概率信息的情
Information,MI)[3j方法 ,最大似然估计 (Maximum 况下达到较高的正确率。
LikelihoodEstimate,MLE)~方法 ,基于中心词依存概 1-2 组块规则构造
率5【j的方法等 。 1.2.1二元汉语基本名词短语 的组块规则
由于汉语的语法极其灵活 ,短语在汉语句法系 获取组块规则的方法主要有两种 ,一种是由知
统中占据核心地位 ,而对汉语的组块定义 ,一直没有 识专家手工建立语法规则 ,一种是从经过组块标注
一 个统一的标准。特别是对短语的功能研究方面,更 的语料库中抽取得到。采取从经过组块标注的语料
是缺少对计算机处理汉语有直接借鉴价值 的成果 库 中得到组块规则 ,先给出组块规则的几个形式化
相对来说,清华大学的组块体系影响最大,该体系包 定义嘲。
括如下几种类型:S(主语语块),P(述语语块),0(宾 (1)基本组块规则。语句中如果存在 以,wJr:,
语语块),J(兼语语块),D(状语语块),C(补语语块), … Wr/t构成一个基本的组块 ,则词性标注系列ht:
,
T(独立语块),Y(语气块)。与Abney定义的组块体 … t称为一条基本组块规则。
系相比,清华大学的组块体系更加强调对句子整体 (2)合式的基本组块规则。首先选定一个 阀值
功能的描述 ,它侧重于 自顶向下地描述句子的基本 , 假设某条组块规则r的出现频数厂(r)满足厂(r),
框架。一个组块类型的确定不仅是根据它的内部构 则称规则r为合式的基本组块规则。
成 ,而且还要根据它在上下文的环境特征。另外也有 (3)基本组块规则集
文档评论(0)