基于改进的TF-IDF算法的微博话题检测-科技导报.PDFVIP

  • 9
  • 0
  • 约2.22万字
  • 约 5页
  • 2019-08-18 发布于天津
  • 举报

基于改进的TF-IDF算法的微博话题检测-科技导报.PDF

基于改进的TF-IDF算法的微博话题检测-科技导报.PDF

科技导报2016,34(2) 基于改进的基于改进的TF-IDFTF-IDF算法的微博话题算法的微博话题 检测检测 1 2 陈朔鹰 ,金镇晟 1. 北京理工大学网络信息中心,北京100081 2. 北京理工大学计算机学院,北京100081 摘要摘要 中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随 之激增。利用这一特性,在传统的TF-IDF(termfrequency-inversedocumentfrequency)基础上提出一种改进的特征权重算 法,称之为TF-IDF-KE(termfrequency-inversedocumentfrequency-kineticenergy),用以解决突发性热点话题在聚类时特 征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的 权重,最后使用CURE(clusteringusingrepresentatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动 态属性,实验结果表明,该方法能够有效地提高话题检测的效果。 关键词关键词 微博;TF-IDF;

文档评论(0)

1亿VIP精品文档

相关文档