海量文件相似计算方法及装置.pdfVIP

  • 0
  • 0
  • 约9.77千字
  • 约 9页
  • 2023-04-26 发布于四川
  • 举报
本发明公开了一种海量文件相似计算方法及装置,获取所有要计算相似度的文本所对应的SIMHASH;将所有SIMHASH分为n份,将每一份作为key把完整的SIMHASH作为值存入Set集合中;将所述Set集合作为值存入到HashMap中;再次遍历所有SIMHAS,将遍历到的每个SIMHASH分成n份;将遍历后分成的n份SIMHASH段分别放到Map中查找是否有相同;若有相同,则可能存在与其相似的SIMHASH;获取Map中的值再逐一比较是否有满足相似条件的SIMHASH;本发明提供的海量文件相似计算

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114090741 A (43)申请公布日 2022.02.25 (21)申请号 202111407548.4 (22)申请日 2021.11.24 (71)申请人 北京鼎普科技股份有限公司

文档评论(0)

1亿VIP精品文档

相关文档