数据块与布隆过滤器块分析.pdfVIP

  • 0
  • 0
  • 约1.24千字
  • 约 2页
  • 2026-06-24 发布于北京
  • 举报

《113_数据块与布隆过滤器块分析》

数据块和布隆过滤器块

数据块中包含许多键值对,每个键值对包含了键长度、值长度、键、值。键是一个复杂的

结构,实际上包含了行键长度、行键、列族长度、列族、列限定符、时间戳、键类型。

键类型有几种类型:put、delete、deleteColumn、deleteFamily。

获取键

数据时需要遍历大量的HFile,布隆过滤器可以快速过滤出哪些HFile肯定没有所需

数据,从而避免不必要的,大大减少需要的HFile数量。布隆过滤器都在内

存中,性能非常高。

这个布隆过滤器的工作原理是这样的:每个hfile都有一个位数组,key通过多个哈希函数

映射,将对应的位置设置为1。当获取key时,同样使用多个哈希函数进行映射,如果数

组中的某个位置是0,则可以确定该key不在这个hfile中;如果位置是1,则可能存在。

如果hfile很大,那么位数组也会非常大,无法全部加载到内存中。

因此,位数组会被拆分成多个部分,每个部分的key使用一个位数组。一个hfile可能包

含多个位数组,在进行key查询时,首先定位到对应的位数组,然后将其加载到内存中,

执行过滤逻辑。hfile中的每个布隆块就是一个位数组。

《113_DataBlock与布隆过滤器Block分析》

datablock和布隆过

文档评论(0)

1亿VIP精品文档

相关文档