如何做好文本关键词提取?从三种算法说起_光环大数据培训[实用].pdf

如何做好文本关键词提取?从三种算法说起_光环大数据培训[实用].pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
光环大数据 --大数据培训 人工智能培训 如何做好文本关键词提取?从三种算法说起 _光环大数据培训 在自然语言处理领域, 处理海量的文本文件最关键的是要把用户最关心的问 题提取出来。 而无论是对于长文本还是短文本, 往往可以通过几个关键词窥探整 个文本的主题思想。与此同时, 不管是基于文本的推荐还是基于文本的搜索, 对 于文本关键词的依赖也很大, 关键词提取的准确程度直接关系到推荐系统或者搜 索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。 关于文本的关键词提取方法分为有监督、半监督和无监督三种: 1、有监督的关键词抽取算法 它是建关键词抽取算法看作是二分类问题, 判断文档中的词或者短语是或者 不是关键词。既然是分类问题, 就需要提供已经标注好的训练语料, 利用训练语 料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取 2、半监督的关键词提取算法 只需要少量的训练数据, 利用这些训练数据构建关键词抽取模型, 然后使用 模型对新的文本进行关键词提取, 对于这些关键词进行人工过滤, 将过滤得到的 关键词加入训练集,重新训练模型。 3、无监督的方法 不需要人工标注的语料, 利用某些方法发现文本中比较重要的词作为关键词, 进行关键词抽取。 光环大数据 1 / 13 光环大数据 --大数据培训 人工智能培训 有监督的文本关键词提取算法需要高昂的人工成本, 因此现有的文本关键词 提取主要采用适用性较强的无监督关键词抽取。其文本关键词抽取流程如下: 图 1 无监督文本关键词抽取流程图 无监督关键词抽取算法可以分为三大类, 基于统计特征的关键词抽取、 基于 词图模型的关键词抽取和基于主题模型的关键词抽取。 NO.1 文本关键词提取算法 基于统计特征的关键词提取算法 基于于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽 取文档的关键词。 通常将文本经过预处理得到候选词语的集合, 然后采用特征值 量化的方式从候选集合中得到关键词。 基于统计特征的关键词抽取方法的关键是 采用什么样的特征值量化指标的方式,目前常用的有三类: 1、基于词权重的特征量化 基于词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词 长等。 2、基于词的文档位置的特征量化 这种特征量化方式是根据文章不同位置的句子对文档的重要性不同的假设 来进行的。通常,文章的前 N个词、后 N个词、段首、段尾、标题、引言等位置 光环大数据 2 / 13 光环大数据 --大数据培训 人工智能培训 的词具有代表性,这些词作为关键词可以表达整个的主题。 3、基于词的关联信息的特征量化 词的关联信息是指词与词、词与文档的关联程度信息,包括互信息、 hits 值、贡献度、依存度、 TF-I

文档评论(0)

旺咖 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档