基于词或词组长度和频数的短中文文本关键词提取算法-计算机科学.PDF

基于词或词组长度和频数的短中文文本关键词提取算法-计算机科学.PDF

基于词或词组长度和频数的短中文文本关键词提取算法-计算机科学

Vo 1. 43 No. 12 第 43 卷第12 期 计算机科学 2016 年 12 月 Computer Science Dec 2016 基于词或词组长度和频数的短中文文本关键词提取算法 陈伟鹤刘云 (江苏大学计算机科学与通信工程学院 镇江 212013) 摘 要 中文文本的关键词才是取是自然语言处理研究中的难点。国内外大部分关键词才是取的研究都是基于英文文本 的,但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段 短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。提出了面向 中文文本的基于词或词组长度和频数的关键词提取算法,此算法首先才是取文本中出现频数较高的词或词组,再根据这 些词或词组的长度以及在文本中出现的频数计算权重,ρ、而筛选出关键词或词纽。该算法可以准确地从中文文本中 提取出相对重要的词或词组,从而快速、准确地提取此段中文文本的主题。实验结果表明,基于词或词组长度和频数 的中文文本关键词提取算法与已有的其他算法相比,可用于处理中文文本,且具有更高的准确性。 关键词 关键词提取,中文文本处理,音译词,网络新词 中图法分类号 TP39 1. 1 文献标识码 A 001 10. 11896/j. issn. 1002-137)立 2016.12.009 Keyword Extraction Algorithm ßased on Length and Fr叫uency of 1月Vords or Phrases for Short Chinese Texts CHEN Wei-he LIU Yun (School of Computer Science and Telecommunication Engineering ,Jiangsu University ,Zhenjiang 212013 ,China) Abstract Keyword extraction for Chinese text is an important and difficult part of the text processing research ,espe- cially in the field of natural language processing research. Most existing studies focus on English text or long Chinese text ,but due to their nature limitations ,those keyword extraction algorithms can not apply to Chinese text. Those key word extraction algorithms for English text are unsuitable for extracting keywords from Chinese texts. How to extract words or phrases accurately from Chinese text which are meaningful and closely related to the topics of this paragraph is the point of this paper. This paper presented a novel keyword e

文档评论(0)

1亿VIP精品文档

相关文档