基于词频统计文本关键词提取方法.docVIP

  • 52
  • 0
  • 约5.61千字
  • 约 9页
  • 2018-08-30 发布于福建
  • 举报
基于词频统计文本关键词提取方法

基于词频统计文本关键词提取方法   摘要:针对传统TFIDF(Term FrequencyInverse Document Frequency)算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TFIDF算法与传统TFIDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TFIDF算法在查准率、查全率及F1指标上均优于传统TFIDF算法,并能够有效减少关键词提取运行时间。   关键词:词频统计;齐普夫定律;同频词;关键词提取;TFIDF算法   中图分类号: TP391 文献标志码:A   0引言   随着互联网的飞速发展,各种文本信息迅速扩张,面对如此海量的信息,人们需要花费大量时间和精力对其进行挑选和甄别。关键词是一篇文章核心内容的体现和主题信息的浓缩,用户可以通过阅读关键词快速明确文章主旨,从海量的文章中获取有用信息。关键词提取是信息处理领域的基础与核心技术,它在信息检索、话题跟踪、自动摘要、文本聚类、文本分类等领域都有着广泛的应用。Abilhoa等[1]提出一种针对推特消息的关键词提取方法;Chen等[2]通过用户行为提取博客中的关键词;JeanLouis等[3]提出一种面向知识库的自动关键词提取方法;Habibi等[4]提取会话中的关键词来进行文档推荐;蒋昌金等[5]提出基于组合词和同义词集的关键词提取算法;何炎祥等[6]利用关键词提取等技术,对社交网络用户兴趣进行挖掘。   TFIDF(Term FrequencyInverse Document Frequency)算法是目前应用最多的基于统计信息的关键词提取方法,但该方法需要对每个词语进行词频统计,严重影响提取效率,此外,该方法可能将低频词错选为关键词而影响提取准确率。为解决此问题,本文首先对词频统计规律进行研究,推导同频词数In计算公式、探究各频次词语所占比重,进而将词频统计规律应用于文本关键词提取,提出基于词频统计的TFIDF算法。实验表明,该算法可以在保证提取正确率的前提下有效提高关键词提取效率。   4结语   本文将词频统计规律与关键词提取相结合,提出基于词频统计的文本关键词提取方法。首先对词频统计规律进行研究,根据齐普夫定律推导同频词数In计算公式、探究文本中各频次词语所占比重,进而将得到的词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。本文选取中、英文文本实验数据集进行验证,实验表明,得到的同频词数In计算公式能够准确计算出中、英文文本中各频次的同频词数量,平均相对误差未超过0.06;确立的各频次词语所占比重与中、英文文本实际统计情况基本一致,最大误差绝对值为0.04。基于词频统计的TFIDF算法与传统TFIDF算法相比,查准率、查全率及F1度量均有所提高,且运行时间大幅度降低。在实验验证时,本文没有深入考虑文本体裁是否对实验结果存在影响,这将是进一步研究的重点。   参考文献:   [1]   ABILHOA W D, CASTRO L N D. A keyword extraction method from twitter messages represented as graphs [J]. Applied Mathematics and Computation, 2014,240(4):308-325.   [2]   CHEN Y H, LU J L, MENG F T. Finding keywords in blogs: efficient keyword extraction in blog mining via user behaviors [J]. Expert Systems with Applications, 2014,41(2):663-670.   [3]   JEANLOUIS L, GAGNON M, CHARTON E. A knowledgebase oriented approach for automatic keyword extraction [J]. Computacin y Sistemas, 2013,17(2):187-196.   [4]   HABIBI

文档评论(0)

1亿VIP精品文档

相关文档