基于DBSCAN算法的文本聚类研究.docVIP

  • 20
  • 0
  • 约3.16千字
  • 约 6页
  • 2017-10-18 发布于北京
  • 举报
基于DBSCAN算法的文本聚类研究   摘 要:提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF-IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。   关键词关键词:文本聚类;DBSCAN聚类;文本相似度;文本处理   DOIDOI:10.11907/rjdk.161915   中图分类号:TP312   文献标识码:A 文章编号:1672-7800(2016)008-0036-03   0 引言   互联网作为开放共享的信息平台,蕴含着海量的文本信息资源,而这些海量文本信息资源通常在互联网上是无序存放的,存在着各种各种冗余的信息,因此需要采用相关技术来组织和管理这些文本信息。文本分类和聚类是文本信息管理的重要方法,文本聚类是文本挖掘的重要组成部分,越来越受到关注。文本聚类广泛应用于文档自动整理、组织管理等,可以对搜索引擎搜索结果分类进行优化。此外,也可以应用于推荐系统中,根据用户所感兴趣的文档进行聚类,

文档评论(0)

1亿VIP精品文档

相关文档