针对舆情数据的去重算法.PDFVIP

  • 22
  • 0
  • 约2.86万字
  • 约 7页
  • 2018-03-10 发布于天津
  • 举报
针对舆情数据的去重算法

计 算 机 系 统 应 用 2017 年 第 26 卷 第 5 期 针对舆情数据的去重算法① 张庆梅 ( 中国科学技术大学 软件学院, 苏州 215123) 摘 要: 针对在数据服务中舆情去重不可避免且缺乏理论指导的问题, 通过研究 SimHash、MinHash 、Jaccard 、 Cosine Similarty 经典去重算法, 以及常见的分词和特征选择算法, 以寻求表现优异的算法搭配, 并对传统 Jaccard 和 SimHash 进行了改进分别产生新算法: 基于短文章的 Jaccard 和基于 Cosine Distance 的 SimHash. 针对比较对 象众多实验效率低下的问题, 提出了先纵向比较筛选出优势算法, 然后横向比较获得最佳搭配, 最后综合比较的 策略, 并结合 3000 舆情样本实验证明: 改进的 SimHash 比传统的 SimHash 具有更高的精度和召回率; 改进的 Jaccard 较传统 Jaccard,

文档评论(0)

1亿VIP精品文档

相关文档