最大熵模型在关键词自动标引中的应用.docxVIP

最大熵模型在关键词自动标引中的应用.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

最大熵模型在关键词自动标引中的应用

1最大熵模型学习

关键字是文档管理、文本收集、分类、检索和其他技术应用的重要资源。目前,许多文档不带有关键词,手动索引成本高、主观性强,不利于搜索下一个通道。因此,关键词自动索引是一项需要研究的技术。

国外对于关键词自动标引的研究起步较早,已经建立了一些实用或试验系统.Turney设计了系统GenEx,它将遗传算法和C4.5决策树机器学习方法用于关键短语的抽取;Witten采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值,以完成下一步从文档中抽取关键短语的任务.从国内看,由于汉语语言本身的特点,没有显式的词边界,为主题自动标引任务又增加了一定的难度,使用最多的一种方法是基于PATTree结构获取新词,并采用互信息等一些统计方法对文档的关键词进行标引,但获取候选词选用的PATTree,它的建立用计算机实现需要大量的空间消耗,因此还需要进一步深入研究.

最大熵方法是当前自然语言处理领域最为盛行的一种方法,在Conll-2003的NER(命名实体识别)比赛中,16个参赛小组中的前三名都提到了该方法.此外,最大熵方法还有效地应用到词性标注、歧义消解、边界识别、浅层分析等领域.这也说明该方法易行且有效,但目前还未见报道把最大熵方法用于关键词自动标引的工作中.因此本文针对关键词标引任务,在最大熵模型概率计算的基础上,探索了多种运用最大熵模型的试验方法.

本文第2节介绍了关键词自动标引的任务以及需要解决的问题;第3节结合关键词标引任务回顾了最大熵模型,并描述了模型中使用的特征集合;第4节详细介绍了基于最大熵模型的三种试验方法;第5节给出了试验结果,并进行比较和分析;最后对全文进行了总结.

2从任务到核心关键词的提取

关键词自动标引是根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词.因此有人也把关键词自动标引称作关键词抽取技术.这里的关键词不局限于一般的词的概念,也可能为一个短语,由多个词语构成.

实际上,一个文档可以表示成一个广义集合1,集合中的每个元素为具有出现频数、出现位置等属性的短语.因此,关键词标引的任务就是判断这个集合中哪些短语是关键词和哪些是非关键词.这样就需要解决两个问题,第一个是如何将文档表示成广义集合,即从中提取出哪些短语作为关键词候选项,如何提取;第二个问题是怎样判断候选项是否是关键词,其依据是什么.

一篇文档就是一个字符串序列,如果把文档中所有可能的短语抽取出来,这个数目是非常庞大的,而且很多是不必要的,例如一些虚词和由虚词组成的短语不能作为关键词.这里,我们利用一些语言学工具从文中选出在一定程度上反映了文章主题内容的有意义的短语.由于文档中重要的内容经常会重复出现,因此首先由串频统计工具从文中获得出现一定频数的字串,再根据词性切分标注器、浅层分析器等工具以及语言学知识把没有意义的和不可能作为关键词的字串过滤掉,得到一个关键词候选项的集合,这里不再详细介绍候选项获取的过程,可参考Li的文章.

当前关键词候选集合中的每一项都在一定程度上反映了文章的内容,但其反应主题内容还存在着程度大小的问题.而获取文档的关键词就是选出最能反映文章主题内容的那些候选项.因此要计算每一候选项反应主题内容的程度大小,最大熵模型就是我们计算这个程度大小以获取关键词的基础.

3最大熵模型的识别

最大熵模型是一个比较成熟的数学模型,适合于估计事件的概率分布.最大熵框架的计算模型不依赖语言模型,独立于特定的任务.这里我们再简单回顾一下最大熵框架的原理.进行关键词标引,我们选取训练数据时,以每一个字串作为一个事件.假设有一个样本集合为{(ck1,y1),(ck2,y2),…,(ckN,yN)},每一个cki(1≤i≤N)表示一个进入最大熵模型进行概率估计的候选关键词(candidatekeyword),yi(1≤i≤N)表示该候选项被标引的结果,该结果属于集合{YES,NO},YES表示是关键词,NO表示不是关键词.利用最大熵框架模型得出在特征限制下最优的概率分布,即概率值p(y|ck).根据最大熵原理,概率值p(y|ck)的取值符合下面的指数模型:

{p(y|ck)=Ζλ(ck)exp(∑iλifi(ck,y))Ζλ(ck)=1/∑yexp(∑iλifi(ck,y))(1)???????????????p(y|ck)=Zλ(ck)exp(∑iλifi(ck,y))Zλ(ck)=1/∑yexp(∑iλifi(ck,y))(1)

这里fi表示候选项所具有的可能特征,它是一个二值函数,描述某一个特定的事实.λi指示了特征fi对于模型的重要程度.Z(ck)是一个范化常数.公式(1)使模型由求概率值转化为求参数值λi,我们采用的方法是Darroch和Ratclif

文档评论(0)

xcwwwwws + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档