- 22
- 0
- 约2.86万字
- 约 7页
- 2018-03-10 发布于天津
- 举报
针对舆情数据的去重算法
计 算 机 系 统 应 用 2017 年 第 26 卷 第 5 期
针对舆情数据的去重算法①
张庆梅
( 中国科学技术大学 软件学院, 苏州 215123)
摘 要: 针对在数据服务中舆情去重不可避免且缺乏理论指导的问题, 通过研究 SimHash、MinHash 、Jaccard 、
Cosine Similarty 经典去重算法, 以及常见的分词和特征选择算法, 以寻求表现优异的算法搭配, 并对传统 Jaccard
和 SimHash 进行了改进分别产生新算法: 基于短文章的 Jaccard 和基于 Cosine Distance 的 SimHash. 针对比较对
象众多实验效率低下的问题, 提出了先纵向比较筛选出优势算法, 然后横向比较获得最佳搭配, 最后综合比较的
策略, 并结合 3000 舆情样本实验证明: 改进的 SimHash 比传统的 SimHash 具有更高的精度和召回率; 改进的
Jaccard 较传统 Jaccard,
您可能关注的文档
最近下载
- TCCIAT 0074-2023 排水管道紫外光固化修复施工和验收技术规程.pdf VIP
- 2026入团考试必刷156题(含答案解析高频考点版).docx
- T_CSPSTC 127-2023 城镇排水管道封堵施工技术规程.pdf VIP
- 2026年中考第二次模拟考试:化学二模模拟卷(辽宁专用)(考试版).docx VIP
- 2023年普通高等学校招生全国统一考试(新课标2卷)地理试题 .pdf VIP
- 线性代数(第六版)赵树嫄课后习题答案.pdf VIP
- 2024《年产100吨植物乳杆菌菌剂生产线设计》10000字.docx VIP
- 2025年神东钳工考试试题及答案.docx VIP
- 2026年建筑企业安全生产合规培训课件与工地风控方案.pptx
- 餐厅厨房4D管理.pptx VIP
原创力文档

文档评论(0)