- 9
- 0
- 约2.22万字
- 约 5页
- 2019-08-18 发布于天津
- 举报
基于改进的TF-IDF算法的微博话题检测-科技导报.PDF
科技导报2016,34(2)
基于改进的基于改进的TF-IDFTF-IDF算法的微博话题算法的微博话题
检测检测
1 2
陈朔鹰 ,金镇晟
1. 北京理工大学网络信息中心,北京100081
2. 北京理工大学计算机学院,北京100081
摘要摘要 中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随
之激增。利用这一特性,在传统的TF-IDF(termfrequency-inversedocumentfrequency)基础上提出一种改进的特征权重算
法,称之为TF-IDF-KE(termfrequency-inversedocumentfrequency-kineticenergy),用以解决突发性热点话题在聚类时特
征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的
权重,最后使用CURE(clusteringusingrepresentatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动
态属性,实验结果表明,该方法能够有效地提高话题检测的效果。
关键词关键词 微博;TF-IDF;
原创力文档

文档评论(0)