一种计算汉语文档哈希值的方法.pdfVIP

  • 6
  • 0
  • 约1.17万字
  • 约 9页
  • 2023-08-26 发布于四川
  • 举报
本发明涉及一种计算汉语文档哈希值的方法,属于文档处理领域。本发明从汉语文档中分离出组成文档的主要汉字,计算分离出的不同汉字在汉语文档中的权重,计算文档中不同汉字的哈希值,根据汉字在文档中的权重和汉字哈希值,计算文档的混合权重,根据文档的混合权重,计算文档的哈希值。本发明提出的计算汉语文档哈希值的方法,计算简单,并考虑了语义信息,相似汉语文档的哈希值差异较小,不同汉语文档的哈希值差异较大,能够有效地区分不同文档,在文档大数据管理中具有重要的应用价值。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113626554 A (43)申请公布日 2021.11.09 (21)申请号 202110941713.8 G06K 9/62 (2006.01) (22)申请日 20

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档