基于语义指纹中文文本快速去重_李纲.pdfVIP

  • 26
  • 0
  • 约3.78万字
  • 约 7页
  • 2016-03-10 发布于安徽
  • 举报

基于语义指纹中文文本快速去重_李纲.pdf

总第 237 期 20 13 年 第 9 期 基于语义指纹的中文文本快速去重* 李 纲 毛 进 陈璟浩 ( 武汉大学信息资源研究中 心 武汉 430072) 【 】 , , Simhash , 摘要 针对中文文本 抽取出文本内容特征 结合 算法生成中文文本的语义指纹 通过语义指纹的海明 。 Single - Pass , 距离判断文本间相似程度 整合 快速聚类算法对语义指纹快速聚类 所得的语义指纹聚类即为文本 , 。 , Shingle , 去重的最终结果 从而实现面向中文文本的快速去重流程 实验过程中 通过与 算法对比 可以

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档