海量数据处理十个专题.docVIP

下载本文档

5
0
约1.29万字
约 30页
2017-08-18 发布于安徽
举报

海量数据处理十个专题.doc

海量数据处理专题（一）——开篇发表于?2010 年 9 月 24 日大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。本贴从解决这类问题的方法入手，开辟一系列专题来解决海量数据问题。拟包含以下几个方面。Bloom Filter Hash Bit-Map 堆(Heap) 双层桶划分数据库索引倒排索引（Inverted Index）外排序 Trie树 MapReduce 海量数据处理专题（二）——Bloom Filter 发表于?2010 年 9 月 24 日【什么是Bloom Filter】 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

海量数据处理十个专题.docVIP