大数据处理算法概要.doc

大数据处理算法概要

大数据处理算法 大数据处理算法一:Bitmap算法 2 大数据处理算法二:Bloom Filter算法 5 大数据处理算法三:分而治之/hash映射 + hash统计 + 堆/快速/归并排序 11 标签:算法,大数据,编程,面试题,腾讯 大数据处理算法一:Bitmap算法 解析:bitmap算法就好办多了 所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。 例如,要判断一千万个人的状态,每个人只有两种状态:男人,女人,可以用0,1表示。那么就可以开一个int数组,一个int有32个位,就可以表示32个人。操作的时候可以使用位操作。 一,申请512M的内存 一个bit位代表一个unsigned int值 读入20亿个数,设置相应的bit位 读入要查询的数,查看相应bit位是否为1,为1表示存在,为0表示不存在 二、使用位图法判断整形数组是否存在重复 判断集合中存在重复是常见编程任务之一,当集合中数据量比较大时我们通常希望少进行几次扫描,这时双重循环法就不可取了。 位图法比较适合于这种情况,它的做法是按照集合中最大元素max创建一个长度为max+1的新数组,然后再次扫描原数组,遇到几就给新数组的第几位置上1,如遇到 5就给新数组的第六个元素置1,这样下次再遇到5想置位时发现新数组的第

文档评论(0)

1亿VIP精品文档

相关文档