基于改进TF-IDF算法的情报关键词提取方法.PDFVIP

基于改进TF-IDF算法的情报关键词提取方法.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进TF-IDF算法的情报关键词提取方法

第33卷摇 第4期 情摇 报摇 杂摇 志 Vol.33摇 No.4 2014年4月 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Apr.摇 2014 基于改进 TF-IDF算法的情报 关键词提取方法 张摇 瑾 (郑州轻工业学院摇 郑州摇 450002) 摘摇 要摇 传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。 本文提出基于TF-IDF、词位置 和词跨度的关键词自动提取的方法。 该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度 权值,避免单纯采用TF-IDF算法产生的偏差。 实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准 确率、召回率及F1值与传统方法相比有明显提升。 关键词摇 关键词提取摇 TF-IDF摇 位置权值摇 词跨度值 中图分类号摇 TP391摇 摇 摇 摇 摇 摇 文献标识码摇 A摇 摇 摇 摇 摇 摇 文章编号摇 1002-1965(2014)04-0153-03 DOI摇 10.3969/j.issn.1002-1965.2014.04.028 A Method of Intelligence Key Words Extraction Based on Improved TF-IDF Zhang Jin (Zhengzhou University of Light Industry,Zhengzhou摇 450002) Abstract摇 Being usually entirely based on word frequency,TF-IDF neglectsthe influence of other features of words on keywords. The essay proposesa automatic keywordsextracting methodbasedonTF-IDF,wordpositionandword span. Wordpositionweightvalueand word spanvalueareaddedtothetraditionalTF-IDFkeywordstermweightingalgorithmin ordertoavoiddeviation. Theexperimentfind鄄 ings show that theproposedmethod,withhigheraccuracy,lowerrecallrateandF1values,ismoreapplicableintheextractionofChinese intelligence keywords. Key words摇 key wordsextraction摇 TF-IDF摇 word position weight value摇 word span value TF表示词语 i 在该文档中出现的次数,逆文本频数 0摇 引摇 言 IDF=log(N/ N +茁),其中N表示文档总数,N 表示文i i 随着大数据时代的到来,信息和现实生活密不可 档中出现词语 i 的文档数,为一个经验值,一般取0. 分,如此海量的数据使得寻找所需的情报的难度加大。 01、0.1、1。 以词频TF 和逆文本频数IDF 的乘积作为 因此,如何有效提取有用情报的主题内容显得十分重

文档评论(0)

tangtianbao1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档