《数据采集》课件——Hash算法去重.pptxVIP

  • 2
  • 0
  • 约1.3千字
  • 约 12页
  • 2026-06-23 发布于福建
  • 举报

Hash算法去重;了解hash去重;1.Hash简单介绍

2.单向性

3.映射分布均匀性

4.重复数据删除技术;

hash算法Hash一般翻译为散列,或音译为哈希,就是把任意长度的输入(称为预映射)通过Hash算法变换成固定长度的输出,该输出就是Hash值。

这种转换是一种压缩映射,Hash值的空间通常远小于输入的空间。Hash算法的数学表述为:CA=Hc(content)其中:Hc---单向Hash函数,content---任意长度字符串,CA---固定长度Hash值。

;从预映射,能够简单迅速的得到Hash值,而在计算上不可能构造一个预映射,使其Hash结果等于某个特定的Hash值,即构造相应的content=Hc-1(CA)不可行。第二:抗冲突性(collision-resistant),即在统计上无法产生2个Hash值相同的预映射。给定content,计算上无法找到content′,满足Hc(content)=Hc(content′),此谓弱抗冲突性;计算上也难以寻找一对任意的content和content′使满足,此谓强抗冲突性;

Hash结果中,为0的位和为1的位,其总数应该大致相等;输入中一个位的变化,Hash结果中将有一半以上的位改变,这又叫做雪崩效应(avalancheeffec

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档