2021年度十道海量数据处理面试题.docVIP

下载本文档

11
0
约1.25万字
约 14页
2021-03-27 发布于北京
举报
版权申诉

2021年度十道海量数据处理面试题.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

海量数据解决面试题 Table of Contents TOC \o 1-3 \h \z \u 海量数据处理面试题 1 第一部分：十道海量数据处理面试题 1 1、海量日志数据，提取出某日访问百度次数最多的那个IP。 1 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。 2 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。 2 4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。 3 5、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？ 3 6、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。 4 7、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？ 4 8、怎么在海量数据中找出重复次数最多的一个？ 5 9、上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。 5 10、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。 5 附、100w个数中找出最大的100个数。 5 第二部分、十个海量数据处理方法大总结 6 一、Bloom filter 6 二、Hashing 6 三、bit-map 7 四、堆 7 五、双层桶划分其实本质上就是【分而治之】的思想，重在“分”的技巧上！ 8 六、数据库索引 8 七、倒排索引(Inverted index) 8 八、外排序 9 九、trie树 9 十、分布式处理 mapreduce 10 经典问题分析 10 第一某些：十道海量数据解决面试题 1、海量日记数据，提取出某日访问百度次数最多那个IP。 ????? 一方面是这一天，并且是访问百度日记中IP取出来，逐个写入到一种大文献中。注意到IP是32位，最多有个2^32个IP。同样可以采用映射办法，例如模1000，把整个大文献映射为1000个小文献，再找出每个小文中浮现频率最大IP（可以采用hash_map进行频率记录，然后再找出频率最大几种）及相应频率。然后再在这1000个最大IP中，找出那个频率最大IP，即为所求。或者如下阐述（雪域之鹰）：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值状况，因此不能完全加载到内存中解决；?2.可以考虑采用“分而治之”思想，按照IP地址Hash(IP)%1024值，把海量IP日记分别存储到1024个小文献中。这样，每个小文献最多包括4MB个IP地址；?3.对于每一种小文献，可以构建一种IP为key，浮现次数为valueHash map，同步记录当前浮现次数最多那个IP地址；4.可以得到1024个小文献中浮现次数最多IP，再根据常规排序算法得到总体上浮现次数最多IP； 2、搜索引擎会通过日记文献把顾客每次检索使用所有检索串都记录下来，每个查询串长度为1-255字节。??? 假设当前有一千万个记录（这些查询串重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一种查询串重复度越高，阐明查询它顾客越多，也就是越热门。），请你记录最热门10个查询串，规定使用内存不能超过1G。 ??? 典型Top K算法，还是在这篇文章里头有所阐述，详情请参见：十一、从头到尾彻底解析Hash表算法。??????? 文中，给出最后算法是：??? 第一步、先对这批海量数据预解决，在O（N）时间内用Hash表完毕记录（之前写成了排序，特此订正。July、.04.27）；??? 第二步、借助堆这个数据构造，找出Top K，时间复杂度为N‘logK。??????? 即，借助堆构造，咱们可以在log量级时间内查找和调节/移动。因而，维护一种K(该题目中是10)大小小根堆，然后遍历300万Query，分别和根元素进行对比因此，咱们最后时间复杂度是：O（N） + N*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参照原文。 ??? 或者：采用trie树，核心字域存该查询串浮现次数，没有浮现为0。最后用10个元素最小推来对浮现频率进行排序。 3、有一种1G大小一种文献，里面每一行是一种词，词大小不超过16字节，内存限制大小是1M。返回频数最高100个词。 ??? 方