数据解析总结计划师常见7道笔试题目及.docxVIP

下载本文档

2
0
约3.73千字
约 3页
2021-08-14 发布于山东
举报
版权申诉

数据解析总结计划师常见7道笔试题目及.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析总结计划师常有7道笔试题目及数据分析总结计划师常有7道笔试题目及 PAGE / NUMPAGES 数据分析总结计划师常有7道笔试题目及数据剖析师常有的 7 道笔试题目及答案：探究性数据剖析重于在数据之中新的特点，而性数据剖析重于已有假的或。以下是由小您整理介绍的用的聘笔目和，迎参照。 1、海量日记数据，提拿出某日百度次数最多的那个 IP 。第一是一天，而且是百度的日记中的 IP 拿出来，逐一写入到一个大文件中。注意到 IP 是 32 位的，最多有个 2^32 个 IP 。同能够采纳映照的方法，比方模 1000，把整个大文件映照 1000 个小文件，再找出每个小文中出率最大的 IP( 能够采纳 hash_map 行率，而后再找出率最大的几个 ) 及相的率。而后再在 1000 个最大的 IP 中，找出那个率最大的 IP ，即所求。或许以下述：算法思想：分而治之 +Hash 地点最多有 2^32=4G 种取状况，所以不可以完整加到内存中理 ; 2. 能够考采纳“分而治之”的思想，依照 IP 地点的 Hash(IP)24 ，把海量 IP 日记分存到 1024 个小文件中。，每个小文件最多包括 4MB个 IP 地点 ; 3. 于每一个小文件，能够建立一个 IP key，出次数 value 的 Hash map，同目前出次数最多的那个 IP 地点; 4. 能够获得 1024 个小文件中的出次数最多的 IP ，再依照常的排序算法获得体上出次数最多的 IP; 2、搜寻引擎会通日记文件把用每次索使用的全部索串都下来，每个串的度 1-255 字。假目前有一千万个 ( 些串的重复度比高，然数是 1 千万，但如果除掉重复后，不超 3 百万个。一个串的重复度越高，明它的用越多，也就是越。 ) ，你最的 10 个串，要求使用的内存不可以超 1G。典型的 Top K 算法，是在篇文章里有所述，文中，出的最算法是：第一步、先批海量数据理，在 O(N)的内用 Hash 表达成 ( 以前写成了排序，特此正。 July 、第二步、借助堆个数据构，找出 Top K，复度 N‘logK 。即，借助堆构，我能够在 log 量的内找和整 / 移。所以，一个 K( 目中是 10) 大小的小根堆，而后遍 300 万的 Query ，分和根元素行比所以，我最的复度是： O(N) + N’*O(logK) ， (N 1000 万， N’ 300 万 ) 。 ok，更多，情，参照原文。或许：采纳 trie ，关字域存串出的次数，没有出 0。最后用 10 个元素的最小推来出率行排序。 3、有一个 1G大小的一个文件，里面每一行是一个，的大小不超 16 字，内存限制大小是 1M。返回数最高的 100 个。方案：序文件中，于每个 x，取 hash(x)P00 ，而后依照存到 5000 个小文件 ( x0， x1，? x4999) 中。每个文件大体是 200k 左右。假如此中的有的文件超了 1M大小，能够依照似的方法往下分，直到分解获得的小文件的大小都不超 1M。每个小文件，每个文件中出的以及相的率 ( 能够采纳 trie /hash_map 等 ) ，并拿出出率最大的 100 个 ( 能够用含 100 个点的最小堆 ) ，并把 100 个及相的率存入文件，又获得了 5000 个文件。下一步就是把 5000 个文件行并 ( 似与并排序 ) 的程了。 4、有 10 个文件，每个文件 1G，每个文件的每一行寄存的都是用的 query ，每个文件的 query 都可能重复。要求你依照 query 的度排序。是典型的 TOP K算法，解决方案以下：方案 1：序取 10 个文件，依照 hash(query) 的果将 query 写入到此外 10 个文件 ( ) 中。重生成的文件每个的大小大也 1G(假 hash 函数是随机的 ) 。找一台内存在 2G左右的机器，挨次用 hash_map(query ， query_count) 来每个 query 出的次数。利用迅速 / 堆 / 并排序依照出次数行排序。将排序好的 query 和的 query_