基于最大熵模型组块分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于最大熵模型的组块分析 李素建, 刘 群, 杨志峰 (北京大学计算语言学研究所 北京 100871) E-mail: lisujian@pku.edu.cn 摘要 本文采用最大熵模型实现中文组块分析的任务。首先我们明确了中文组块的定义,并且列出了模型中所有 的组块类型和组块标注符号。组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程, 我们可以把它作为一个分类问题根据最大熵模型来解决。最大熵模型的关键是如何选取有效的特征,文中给出了 相关的特征选择过程和算法。最后给出了系统实现和实验结果。 关 键 词 组块分析;语法分析;最大熵原理;浅层分析 中图法分类号: TP3 文献标识码: A 1 引言 句法分析是 自然语言处理中的重点和难点,虽然经过几十年的研究和发展,仍是现在的一个瓶颈问题。 因此 目前通常采用 “分而治之”原则,降低完全句法分析的难度,进行部分的句法分析,也称作组块分析。 它是和完全句法分析相对的。完全句法分析着眼于充分分析整个句子的语法特点,最大限度地揭示句子所反 映的主题内容。而组块分析只限于把句子解析成较小的单元,而不揭示这些单元之间的句法关系。组块分析 目前逐步受到重视,国际会议 CoNLL-2000 把它作为共享任务提出[1] 。Abney[2] 总结了英语中的各种基本组块 (名词组块,形容词组块,动词组块等)。而 目前对于中文组块的研究主要侧重于最长名词短语、基本名词短 语等的研究[3,4] ,系统的汉语组块及其划分的研究还很少。 在自然语言处理中有不少统计建模的例子,由于最大熵模型的简洁、通用和易于移植,目前在对英语的 处理中经常采用该技术[5,6,7,8] 。汉语中词性标注和短语边界识别多使用 HMM 的统计模型[3,9] ,还未见有论文 或资料谈到使用最大熵的方法。本文结合汉语语言的特点,实现了一个基于最大熵模型的组块标注器获得汉 语中各种类型的组块,并采用宾州大学的真实语料进行训练和测试,组块的召回率达到 90.6%,精确率达到 91.9% 。 本文中,第 2 节明确了对中文组块的定义,并列出各种组块类型和组块标注符号;第 3 节简要介绍了组 块分析采用的最大熵模型;第 4 节阐述了最大熵模型建立特征集合的过程;第 5 节描述了如何进行模型测试, 并给出了实验结果。最后对全文进行总结。 2 组块分析的任务 2.1 组块及其类型的定义 首先明确本文中组块的定义以及组块分析的任务及 目标。我们借用了 Abney[10]对英语组块的定义,为汉 基金项目: 本项目得到国家 973 项目基金资助(项目编号 G1998030504-01,G1998030507-4 ) 作者简介: 李素建( 1975 -),女, 山东菏泽人,博士生,主要研究领域为自然语言处理,知识挖掘,机器翻译; 刘群( 1966 -),男,江 西南昌人,博士,副研究员,硕士生导师,主要研究领域为机器翻译, 自然语言处理,人工智能; 杨志峰( 1975 -),男,河南新乡人,博士生,主 要研究领域为信息检索, 自然语言处理,知识挖掘. 语中的组块定义如下: 定义 1. 组块是一种语法结构,是符合一定语法功能的非递归短语。每个组块都有一个中心词,并围绕 该中心词展开,以中心词作为组块的开始或结束。任何一种类型的组块内部不包含其他类型的组块。 这里的定义与 Abney 的英文组块定义有两点不同:(1) 本文中组块是构成语句的最小句法功能单位,不 能包含其他的组块,所有组块都位于同一个层次上,各种组块类型是平等的;而在 Abney 的定义中,组块是 分层次的,高层次的组块由低层次的组块构成;(2) Abney 的组块定义中,组块中心词只作为组块的结束,中 心词后的从属成分另起一个组块,而本文的定义中,组块的中心词也可以作为组块的开始。例如组块 “拿到” 的中心词是“拿”,“到”是处于中心词后的从属部分。 根据以上对组块的定义,结合汉语的特点,我们定义了如下 12 种组块类型,如表 1。 表 1 组块类型 组块类型 组块描述 组块类型 组块描述 ADJC 形容词组块 NC 名词组块 ADVC 副词组块

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档