- 52
- 0
- 约5.61千字
- 约 9页
- 2018-08-30 发布于福建
- 举报
基于词频统计文本关键词提取方法
基于词频统计文本关键词提取方法
摘要:针对传统TFIDF(Term FrequencyInverse Document Frequency)算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TFIDF算法与传统TFIDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TFIDF算法在查准率、查全率及F1指标上均优于传统TFIDF算法,并能够有效减少关键词提取运行时间。
关键词:词频统计;齐普夫定律;同频词;关键词提取;TFIDF算法
中图分类号: TP391 文献标志码:A
0引言
随着互联网的飞速发展,各种文本信息迅速扩张,面对如此海量的信息,人们需要花费大量时间和精力对其进行挑选和甄别。关键词是一篇文章核心内容的体现和主题信息的浓缩,用户可以通过阅读关键词快速明确文章主旨,从海量的文章中获取有用信息。关键词提取是信息处理领域的基础与核心技术,它在信息检索、话题跟踪、自动摘要、文本聚类、文本分类等领域都有着广泛的应用。Abilhoa等[1]提出一种针对推特消息的关键词提取方法;Chen等[2]通过用户行为提取博客中的关键词;JeanLouis等[3]提出一种面向知识库的自动关键词提取方法;Habibi等[4]提取会话中的关键词来进行文档推荐;蒋昌金等[5]提出基于组合词和同义词集的关键词提取算法;何炎祥等[6]利用关键词提取等技术,对社交网络用户兴趣进行挖掘。
TFIDF(Term FrequencyInverse Document Frequency)算法是目前应用最多的基于统计信息的关键词提取方法,但该方法需要对每个词语进行词频统计,严重影响提取效率,此外,该方法可能将低频词错选为关键词而影响提取准确率。为解决此问题,本文首先对词频统计规律进行研究,推导同频词数In计算公式、探究各频次词语所占比重,进而将词频统计规律应用于文本关键词提取,提出基于词频统计的TFIDF算法。实验表明,该算法可以在保证提取正确率的前提下有效提高关键词提取效率。
4结语
本文将词频统计规律与关键词提取相结合,提出基于词频统计的文本关键词提取方法。首先对词频统计规律进行研究,根据齐普夫定律推导同频词数In计算公式、探究文本中各频次词语所占比重,进而将得到的词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。本文选取中、英文文本实验数据集进行验证,实验表明,得到的同频词数In计算公式能够准确计算出中、英文文本中各频次的同频词数量,平均相对误差未超过0.06;确立的各频次词语所占比重与中、英文文本实际统计情况基本一致,最大误差绝对值为0.04。基于词频统计的TFIDF算法与传统TFIDF算法相比,查准率、查全率及F1度量均有所提高,且运行时间大幅度降低。在实验验证时,本文没有深入考虑文本体裁是否对实验结果存在影响,这将是进一步研究的重点。
参考文献:
[1]
ABILHOA W D, CASTRO L N D. A keyword extraction method from twitter messages represented as graphs [J]. Applied Mathematics and Computation, 2014,240(4):308-325.
[2]
CHEN Y H, LU J L, MENG F T. Finding keywords in blogs: efficient keyword extraction in blog mining via user behaviors [J]. Expert Systems with Applications, 2014,41(2):663-670.
[3]
JEANLOUIS L, GAGNON M, CHARTON E. A knowledgebase oriented approach for automatic keyword extraction [J]. Computacin y Sistemas, 2013,17(2):187-196.
[4]
HABIBI
您可能关注的文档
最近下载
- Ф90橡胶冷喂料挤出机毕业设计说明书.docx VIP
- 《行测》《行测》题库型介绍(基础题).docx VIP
- 北师大五年级下册全册数学教案.docx VIP
- 石蜡制备高碳醇工艺条件研究.pdf VIP
- 2025届宁夏回族自治区吴忠市盐池县高三下学期第一次模拟考试物理试卷.pdf VIP
- 浙江省中小学正高级教师职称评审表2017.pdf VIP
- 80辛集互联网搜索引擎在成功抓获漂白身份潜逃十二年绑架逃犯中的具体应用3542.pdf VIP
- 《故宫IP联名文创产品开发与销售总结》_国潮文创产品经理.docx
- 人教版(2019)必修第一册 Unit 3 Sports and Fitness Reading and thinking Living Legends 教学设计.pdf VIP
- 专题01+完形填空之综合解题技巧(复习课件)(全国通用)2026年高考英语二轮复习讲练测.pptx VIP
原创力文档

文档评论(0)