新闻文本关键词提取算法研究与实现.pdf

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
新闻文本关键词提取算法研究与实现 摘要 新闻关键词的提取可以快速帮助用户定位新闻的中心思想,了解新闻的大致 内容,给用户判定是否要仔细查看的依据,从而提高用户体验。然而人工去标注 关键词虽然质量可以保证,但是难以完成海量的新闻数据。本文通过对新闻文本 特点进行分析,展开对新闻关键词提取算法的研究,并实现了一款实用的新闻关 键词提取系统。实验表明,针对新闻领域文本,本文的关键词提取算法无论是性 能还是准确度明显优于传统的关键词提取算法。 本文着重研究了基于词频统计、基于词图模型与基于主题模型的关键词提取 算法,从这三个方面入手,分别对TF-IDF 算法、TextRank 算法与LDA 主题模 型算法进行探索改进。由于现有资源里没有公开的关键词数据集,本文通过爬虫 技术爬取网易新闻构建关键词测试集,并且对测试集的关键词进行人工交叉标注。 使用搜狗实验室提供的新闻数据构建语料库。最后,实现了一个新闻关键词提取 系统,将对新闻关键词提取的改进应用到此系统,系统具有简洁大方,易操作, 响应快的特点。 为了提高新闻关键词的提取准确率和运行效率,本文围绕上述三个方面的关 键词提取算法做了几点创新。针对传统TF-IDF 算法的逆文档频率将一些罕见词 的概率提高问题,引入齐普夫定律来抑制这一问题,同时引入卡方检验将主题因 素加入到权重的计算。通过设计实验,结果表明改进后关键词提取的准确率和效 率有了明显的提升。针对这三种提取方法的各自优缺点,引入机器学习中的模型 融合思想,采用瀑布融合和并行组合融合两种融合方式,总共设计了五种实验方 案,最终实验结果表明 TF-IDF 算法与 TextRank 算法瀑布融合的效果比较好, TF-IDF 算法与TextRank 算法并行组合的效果优于其他组合方案,并且经过融合 后提取算法的准确率与效率相比单一算法有明显提高。 文末,针对新闻关键词提取研究与实现的过程中遇到的问题和自己的不足之 处做了总结,并对系统进一步改进与研究进一步深入做了展望。 关键词:新闻 关键词 融合 数据 算法 提取 1 新闻文本关键词提取算法研究与实现 Abstract The extraction of News keywords can quickly help users to locate the central idea of News, understand the general content and give users the basis for judging whether to carefully view, thereby improving the user experience. However, manual labeling of keywords can guarantee quality, but it is difficult to complete massive amounts of News data. This paper analyzes the characteristics of News texts, develops research on News keywords extraction, and implements a practical News keywords extracting system. Experiments show that the keywords extracting algorithm of this paper is superior to the traditional pattern in terms of performance and accuracy. This paper focuses on the word-frequency statistics, word-based model and topic- model based keywords extracting method. Starting from these three aspects, the TF- IDF algorithm, TextRank al

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档