- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关键短语抽取研究现状.pdf
研究与开发
文章编号:1007—1423(2017)02—0039—03 DOI:10.39696.issn.1007—1423.2017.02.010
关键短语抽取研究现状
李珊珊 .周耘立
(四川大学计算机学院,成都 620065)
摘要 :
在这个信息爆炸的社会 .如何从大量的文本快速浏览读取重要信息 .已经变得越来重要。关键短语抽取就是从文本中
自动抽取文本中重要的并且能够代表文章主题的短语 关键短语可 以帮助读者快速并且准确地了解文本信息内容。
关键短语抽取方法可 以分为无监督方法和有监督方法两种 ,下面分别对关键短语抽取的两种方法进行介绍。
关键词 :
关键短语抽取;候选关键短语:有监督方法 ;无监督方法
0 引言 短语性:当一个词与其他词构成候选短语共 同出
现的次数超过预期的标准值时.也就是它们 同现频率
关键短语是文本中代表主题的词和短语 .关键短
大于一定的阈值时.候选短语才有可能成为关键短语。
语抽取在信息检索任务和 自然语言处理任务中都有着
完整性:抽取出来的关键短语应该是词语集合的
重要的作用 ,关键短语同样也是文本总结 、观点挖掘 、
全集而不是词语集合的某个子集
文本分类和检索索引等的基本任务l1【尽管关键短语抽
关键短语抽取方法分为两步 :第一步是利用一些
取已经做了许多研究工作.但是相 比其他的自然语言
启发式规则先抽取词 .然后利用 以上几个特征将词组
处理研究工作 ,关键短语抽取仍然存在很大的挑战2[1。
合成短语作为候选短语 :第二步是利用无监督方法或
随着网络信息的发展 .网络文本信息越来越多.如何从
者有监督方法计算候选短语成为关键短语的得分 .无
这些错综复杂的网络文本信息中快速浏览关键信息显
监督的方法是最终选取得分前N的候选短语作为关键
得无 比重要 因此关键短语抽取具有重大的现实意义
短语 .有监督的方法是当得分超过某个阈值时.候选短
本文将对现有的关键短语抽取方法进行分析总结
语作为关键短语被抽取出来
1 关键短语
2 关键短语抽取有监督方法
关键短语是对文本 内容的简单总结.关键短语对
关键短语抽取有监督方法是把关键短语抽取任务
文本主题具有概括性 的功能 关键短语有 以下几个特
作为一个二分类任务 有监督方法是利用 已标注的数
~,t31:
据集训练一个分类器.对将来来的数据利用 已经训练
覆盖性 :关键短语应该是那些重要性程度高并且
好的分类器进行关键短语的抽取 训练数据集中如果
频繁出现的短语 如果不是一个频繁出现的候选短语.
候选短语是标注的关键短语则作为正例.如果候选短
即使它的其他特征得分高
文档评论(0)