适用于大规模文本处理动态密度聚类算法.pptVIP

  • 1
  • 0
  • 约3.87千字
  • 约 19页
  • 2017-06-15 发布于北京
  • 举报

适用于大规模文本处理动态密度聚类算法.ppt

适用于大规模文本处理的动态密度聚类算法 李霞 广东外语外贸大学智能信息处理研究所 / 2012.11.4 NLPCC2012 报告内容 研究背景 算法介绍 实验分析 结论 1 研究背景 当前面向海量文本数据的自然语言处理和数据挖掘技术正逐渐成为新的研究热点,如: 微博情感倾向性分析研究 面向互联网新闻及评论内容的网络舆情监测及预警研究 面向海量数据的社会网络分析等。 在这些应用研究中,聚类算法被广泛使用,然而海量文本数据所具有的大规模和高维特征、类分布倾斜和不平衡问题、以及对算法的高效率要求,对传统聚类算法提出了新的要求。 1 研究背景 从聚类的角度看,文本的分布倾斜和不平衡问题可以看成是数据的密度不均匀问题,传统的基于密度的优秀聚类算法可以发现不同大小和形状不同的聚类,如DBSCAN, CURE, Chameleon和SNN等算法。 然而以上算法在处理海量大规模高维文本数据时,存在一些实际应用问题: 参数输入复杂:算法的输入参数均为2个以上,且设置方法复杂对用户具有较高要求; 算法的时间复杂度高:算法在大规模高维数据集上时间复杂度为O(n2); 不能处理混合属性的数据:实际领域中很多数据具有混合属性。 2 算法介绍 应对传统聚类算法的问题,我们提出了两阶段动态密度聚类算法(A Two-Step Dynamic Density-Based Clustering Algorit

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档