海量数据面试题整理(不一定对)算法总结Bloom filter?适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集?基本原理及要点:?对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter,用一个counter数组代替位数组,就可以支持删除了。还有一个比较重要的问题,如何根据输入元素个数n,确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下,m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些,因为还要保证bit数组里至少一半为0,则m应该=nlg(1/E)*lge大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。举个例子我们假设错误率为0.01,则此时m应大概是n的13倍。这样k大概是8个。?注意这里m与n的单位不同,m是bit为单位,而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。扩展:?Bl
您可能关注的文档
- 《何必做“刺猬”》上课用答辩.ppt
- 《荷塘月色》优秀答辩.ppt
- 《虎门销烟》答辩.ppt
- 计算机等级考试三级数据库2015下半年考前模拟(三)剖析.docx
- 计算机信息管理基础剖析.docx
- 计算机主板接口大全(菜鸟必看)剖析.docx
- 《画鸡蛋》长春版小学语文二年级上册答辩.ppt
- 《灰雀》答辩.ppt
- 《火把节之歌》答辩.ppt
- 加工刀片槽型设计剖析.docx
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
最近下载
- 指导老年人正确使用手杖老年护理意外防护课件.pptx VIP
- 2026年3月武汉三调数学全解析.docx
- GZ054 数字艺术设计赛题B卷-2023年全国职业院校技能大赛赛项正式赛卷.pdf VIP
- 06J505-1 外装修(一)(规范).pdf VIP
- 2022年初级银行从业资格《公司信贷》考试真题试卷(含答案).docx VIP
- 国外航运政策之日本航运政策--第十三周.pdf VIP
- 2024年第十届全国新世纪杯初中数学优质课大赛 课件 说课4.pdf VIP
- 冰冻及常规取材规范中南大学湘雅医院郑长黎.pptx VIP
- 52 非线性泛函分析 [郭大钧 编著] 2015年版.pdf VIP
- 2025年浙江交通职业技术学院高职单招综合素质考试题库及答案解析.docx VIP
原创力文档

文档评论(0)