基于改进TFIDF算法关键词抽取系统.PDFVIP

下载本文档

12
0
约2.1万字
约 6页
2019-01-26 发布于湖北
举报
版权申诉

基于改进TFIDF算法关键词抽取系统.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　第２５卷　第５期厦门理工学院学报Ｖｏｌ．２５　Ｎｏ．５　　２０１７年１０月ＪｏｕｒｎａｌｏｆＸｉａｍｅｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙＯｃｔ．２０１７基于改进ＴＦ⁃ＩＤＦ算法的关键词抽取系统胡　亮，夏　磊，李　伟（厦门理工学院计算机与信息工程学院，福建厦门３６１０２４）［摘　要］为克服传统ＴＦ⁃ＩＤＦ概念思想与关键词抽取的逻辑相冲问题，引入卡方校验的方法优化ＴＦ⁃ ＩＤＦ算法，设计了一个包含文件存储、文本预处理、度量值计算、排序抽取和优化输出４个流程的关键词抽取系统。实验结果表明，该系统能够很好地完成关键词分类抽取的任务，可为数据检索、文本聚类、摘要生成等提供基础支持。［关键词］关键词抽取；ＴＦ⁃ＩＤＦ算法；卡方校验［中图分类号］ＴＰ３９１１　［文献标志码］Ａ　［文章编号］１６７３－４４３２（２０１７）０５－００６７－０６随着互联网的出现和发展，信息数据通过网络进行存储和共享的方式逐渐成为主流。如何从庞大的网络数据库中检索、分类和过滤出有价值的文本信息数据，成为了亟待解决的问题［１－３］。ＴＦ⁃ＩＤＦ算法作为基于统计的无监督关键词抽取方法，在快速性、方便性和领域无关性方面远远优于有监督的［４］［５－６］方法。由于其具备普适性、灵活性和快捷性等特点，所以被许多专家学者所青睐。但是当引入类别区分后，传统的ＴＦ⁃ＩＤＦ的概念思想会与关键词抽取的逻辑相冲［７－８］，即ＴＦ⁃ＩＤＦ算法中ＩＤＦ定义存在漏洞，在有类别区分的语料库中不适用。本文利用了卡方校验的思想对传统的ＴＦ⁃ＩＤＦ算法进行改进，并根据语料资源的规模，设置各项相关的权重值，优化最终结果。１　算法及其改进１１　ＴＦ⁃ＩＤＦ算法ＴＦ⁃ＩＤＦ算法是基于统计的方法来衡量词或短语在文本信息中的关键性。它的主要原理：一个词在目标文本使用的次数较多，却在语料库中使用的次数较少，那么它就能够具备良好的文本区分能力［９－１０］。某个词在目标文本中的ＴＦ值指的是该词在这个文本中出现的频率。在计算这个频率时，还需对它归一化，防止它偏向字数较多的长文本。计算ＴＦ值的公式如下所示：ｆｉ，ｊＴＦｉ，ｊ＝ｎ。（１） ∑ｆｉ，ｊｉ＝１公式（１）为词ｉ在文本ｊ中的的词频ＴＦｉ的计算方式，其中分子内容为词ｉ在文中出现的次数，分母内容为文本ｊ中所有词的总数。通过这种词频的计算方法，有效的防止了词频ＴＦｉ对较长文本的偏向性。除此之外，还可以采用另一种词频归一化的方法，如公式（２）。