网站大量收购独家精品文档,联系QQ:2885784924

13组关键词提取.pptxVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

关键词提取汇报人:林侠侣徐伊玲姚翛潇刘硕宦紫仪刘智灏时间:2020/12/10

1关键词提取介绍及应用2关键词提取基本原理3经典算法介绍4关键词提取前沿研究介绍5实例展示目录CONTENTS

1关键词提取介绍及应用

定义介绍关键词:表达文档主题意义的最小单位。关键词提取:一种识别并提取出文档中有意义且具有代表性片段或词汇(即关键词)的技术,利用某些方法发现文本中比较重要的词作为关键词,进行关键词提取。关键词提取在文本挖掘领域被称为自动关键词提取(automatickeywordextraction)在信息检索领域通常被称为自动标引(automaticindexing)。关键词提取1

关键词提取的应用由论文作者给出论文的关键词,用户可通过一个或多个关键词匹配查找到相关文献,简化搜索结果。文本分类的核心问题是从文本中提取处关键词,然后基于一定的规则对文本分类。通过查找关键词最多的句子可以自动形成摘要。当我们搜索时,算法会从输入的语句中提取关键词并对文本内容进行相关性匹配。通过用户历史浏览记录等用户标签,基于关键词匹配为用户推荐相关的产品信息。1文献检索搜索引擎自动摘要文本分类推荐系统……

2关键词提取基本原理

主要分类2关于文本的关键词提取方法分为有监督、半监督和无监督三种:1)有监督有监督方法主要是通过分类的方式进行,即判断文档中的词是或者不是关键词,需要人工标注的训练语料,训练关键词抽取分类器。当新来一篇文档时,利用训练好的分类器,对各个候选词进行分类。2)半监督3)无监督利用文本语言特点发现其中比较重要的词作为关键词,进行关键词抽取。目前比较常用的关键词提取算法都是基于无监督算法。目前无监督关键词提取方法主要有三类:基于统计特征的关键词提取(TF-IDF);基于词图模型的关键词提取(PageRank,TextRank);基于主题模型的关键词提取(LDA)。

基本流程2无监督文本关键词抽取流程图

基本原理与算法2关键词抽取存在两个基本的问题,第一个即什么是“关键词”,如何定量分析文本中词或词序列的“关键特性是关键词抽取技术中一个重要的问题。目前主流关键词抽取算法可划分为如下三类:

相关技术2分词技术词性标注现有的关键词中,绝大多数关键词为名词或者动名词。一般情况下,名词与其他词性相比更能表达一篇文章的主要思想。目前采用的词性标注方法主要有基于统计模型的标注方法、基于规则的标注方法、统计方法与规则方法相结合的方法、基于神经网络的词性标注方法。关键词抽取的第二个问题即什么是“词”,汉语文本中的词无天然分隔符。现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。对于中文而言,中文分词和词性标注的性能对关键词抽取的效果是至关重要的。

3经典算法介绍

TF-IDF算法3考虑词的两个统计信息:词频和逆文档频率算法设计目标:预测主题的能力越强的词得分越高(TF,TermFrequency)(IDF,InverseDocumentFrequency)

基于LDA的主题模型算法3

Text-Rank算法3PageRank:核心思想:如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高;如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高;

Text-Rank算法3核心思想:如果一个单词出现在很多单词后面的话,那么说明这个单词比较重要;一个TextRank值很高的单词后面跟着的一个单词,那么这个单词的TextRank值会相应地因此而提高;

4关键词提取前沿研究介绍

关键词抽取领域文献发表趋势DatawerecollectedfromGoogleScholarbysearching‘keywordextraction’and‘keyphraseextraction’.ThenumberofpaperYearDatawerecollectedfromWebofSciencebysearching‘keywordextraction’and‘keyphraseextraction’.ThenumberofpaperYear4

SIFRank[1]4[1]SIFRank:ANewBaselineforUnsupervisedKeyphraseExtractionBasedonPre-TrainedLanguageModel

SIFRank-数据集4

SIFRank-实验结果4

文档评论(0)

说明书库 + 关注
实名认证
文档贡献者

24小时提供说明书查找服务。

1亿VIP精品文档

相关文档