- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业论文-基于关键词提取的TFIDF和TextRank方法的对比研究精选
基于关键词提取的TFIDF和TextRank方法的对比研究【摘要】随着大数据云计算的时代到来,关键词提取技术越发重要。选用合适的关键词提取算法能大大加快工作效率。本文选取了两个常见的关键词提取算法TFIDF和TextRank算法,对它们进行比较分析。【Abstract】As the era of big data and cloud computing comes, the technique of extraction of keywords becomes more and more important. With appropriate extraction algorithms, the efficiency can be improved significantly. In this paper, I choose two popular keyword extraction algorithm, TF-IDF and TextRank, to analyze and compare their pros and cons.【关键词】关键词抽取;TFIDF;TextRank引言 关键词提取技术是自然语言处理和信息检索研究的重要基础之一。随着互联网技术的快速发展,网络文本志愿信息呈几何级数不断增长,大数据、云计算等技术对文本分类的要求也越来越高。关键词抽取技术被广泛应用在文章语义分析、文本的分类与聚类、情感分析等多种场合中。面对日益更新和规模庞大的文本数据,能够高效准确得实现关键词提取成为加快计算速度性能的关键。 关键词抽取的主要任务是:对未知类别的文档进行自动处理,通过一定算法提取出其中的关键词,从而方便后续操作。因此,为了使之后的信息检索和过滤等操作的准确性加强,对文本关键词抽取算法的精确度要求也越来越高。近年来,多种机器学习、统计理论等方法被用来进行文本的自动分类。【1】本文根据文本关键词词语之间的关联性与词频特性,选取了TFIDF和TextRank关键词提取算法,进行两者的效率和准确性的对比研究。TFIDF算法2.1. TF-IDF算法简介TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一个词组或短语的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在一组文档中,刻画某一文档特征的特征项可以根据其在这组文档中出现的频率赋予相应的权重,只有在少数文档中出现的较特殊的词,权重要比在多篇文档中出现的词的权重要高。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。2.2. TF-IDF算法原理TF-IDF实际上是TF和IDF的组合。TF即词频(Term Frequency),IDF即逆向文档频率(Inverse Document Frequency)。TF(词频)就是某个词在文章中出现的次数,此文章为需要分析的文本。为了统一标准,有如下两种计算方法【2】:和IDF(逆向文档频率)为该词的常见程度,需要构建一个语料库来模拟语言的使用环境。如果一个词越常见,那么其分母就越大,IDF值就越小。之后,将每个单词的TF-IDF值按从大到小降序排列,排在最前面的几个词即为关键词。2.3. TF-IDF算法实现2.3.1. 构建一一映射Map类C++STL函数库中已经包含了map的库函数,但为了使用起来更加方便、更便于个性化定制操作,于是使用自己定制的Map类模板。这个类函数主要是构建单词的string值与其TF、IDF值的一一对应关系,方便直接用string值下标访问其int值或double值,简化写代码的工作量。同时模板类中主要采取树形结构,建立一棵查找树,利用vector的空间动态分配的灵活性,从string的第一个字母开始一个一个往下找。每个Map类代表一个字母,从根部开始向下遍历,利用bool值判断该处是否为一个单词结尾。代码如下:/***********************************************************************一一映射函数Map类*Type为存储的TF、IDF、TF-IDF值,如int、double等*旨在通过string类型下标访问其Type值**********************************************************************/templateclassTypeclassMap{public:Type val = NULL;//Type值,类型为int、double/*****************************************************
您可能关注的文档
- 机械毕业设计(论文)PPT答辩-果园挖穴施肥机的设计精选.ppt
- 机械毕业设计(论文)PPT答辩-缸体零件加工工艺及钻攻2-M12孔夹具设计精选.ppt
- 机械毕业设计(论文)-纯电动汽车动力传动系统设计精选.docx
- 机械毕业设计(论文)PPT答辩-甘草收获机的设计精选.ppt
- 机械毕业设计(论文)PPT答辩-山药挖掘收获机的设计精选.ppt
- 机械毕业设计(论文)PPT答辩-小麦施肥喷药机的设计精选.ppt
- 机械毕业设计(论文)PPT答辩-酒瓶旋盖机的设计精选.ppt
- 机械毕业设计(论文)开题报告-家用电动马奶酒搅拌机的设计精选.docx
- 机械毕业设计(论文)PPT答辩-链式开沟机的设计精选.ppt
- 机械毕业设计(论文)开题报告-冬小麦仿形镇压追肥联合作业机的设计精选.docx
文档评论(0)