- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析总结计划师常有7道笔试题目及
数据分析总结计划师常有7道笔试题目及
PAGE / NUMPAGES
数据分析总结计划师常有7道笔试题目及
数据剖析师常有的
7 道笔试题目及答案
:探究性数据剖析 重于在数据之中 新的特点,而 性数据剖析
重于已有假 的 或 。 以下是由小 您整理介绍的 用的 聘笔 目和 ,
迎参照 。
1、海量日记数据,提拿出某日 百度次数最多的那个 IP 。
第一是 一天, 而且是 百度的日记中的 IP 拿出来,逐一写入到一个大文件中。
注意到 IP 是 32 位的,最多有个 2^32 个 IP 。同 能够采纳映照的方法, 比方模 1000,把整
个大文件映照 1000 个小文件,再找出每个小文中出 率最大的 IP( 能够采纳 hash_map
行 率 ,而后再找出 率最大的几个 ) 及相 的 率。而后再在 1000 个最大的 IP
中,找出那个 率最大的 IP ,即 所求。
或许以下 述:
算法思想:分而治之 +Hash
地点最多有 2^32=4G 种取 状况,所以不可以完整加 到内存中 理 ;
2. 能够考 采纳“分而治之”的思想,依照 IP 地点的 Hash(IP)24 ,把海量 IP
日记分 存 到 1024 个小文件中。 ,每个小文件最多包括 4MB个 IP 地点 ;
3. 于每一个小文件,能够建立一个 IP key,出 次数 value 的 Hash map,
同 目前出 次数最多的那个 IP 地点;
4. 能够获得 1024 个小文件中的出 次数最多的 IP ,再依照常 的排序算法获得
体上出 次数最多的 IP;
2、搜寻引擎会通 日记文件把用 每次 索使用的全部 索串都 下来, 每个
串的 度 1-255 字 。
假 目前有一千万个 ( 些 串的重复度比 高, 然 数是 1 千万,但如
果除掉重复后, 不超 3 百万个。一个 串的重复度越高, 明 它的用 越多, 也就
是越 。 ) , 你 最 的 10 个 串,要求使用的内存不可以超 1G。
典型的 Top K 算法, 是在 篇文章里 有所 述,
文中, 出的最 算法是:
第一步、先 批海量数据 理,在 O(N)的 内用 Hash 表达成 ( 以前写
成了排序,特此 正。 July 、 第二步、借助堆 个数据 构,找出 Top K, 复 度
N‘logK 。
即,借助堆 构,我 能够在 log 量 的 内 找和 整 / 移 。所以, 一
个 K( 目中是 10) 大小的小根堆, 而后遍 300 万的 Query ,分 和根元素 行 比所以,
我 最 的 复 度是: O(N) + N’*O(logK) , (N 1000 万, N’ 300 万 ) 。 ok,更多,
情, 参照原文。
或许:采纳 trie ,关 字域存 串出 的次数,没有出 0。最后用 10
个元素的最小推来 出 率 行排序。
3、有一个 1G大小的一个文件,里面每一行是一个 , 的大小不超 16 字 ,
内存限制大小是 1M。返回 数最高的 100 个 。
方案: 序 文件中, 于每个 x,取 hash(x)P00 ,而后依照 存到 5000 个
小文件 ( x0, x1,? x4999) 中。 每个文件大体是 200k 左右。
假如此中的有的文件超 了 1M大小, 能够依照 似的方法 往下分,直到分
解获得的小文件的大小都不超 1M。
每个小文件, 每个文件中出 的 以及相 的 率 ( 能够采纳 trie
/hash_map 等 ) ,并拿出出 率最大的 100 个 ( 能够用含 100 个 点的最小堆 ) ,并把 100
个 及相 的 率存入文件, 又获得了 5000 个文件。下一步就是把 5000 个文件 行
并 ( 似与 并排序 ) 的 程了。
4、有 10 个文件,每个文件 1G,每个文件的每一行寄存的都是用 的 query ,每
个文件的 query 都可能重复。要求你依照 query 的 度排序。
是典型的 TOP K算法,解决方案以下:
方案 1:
序 取 10 个文件,依照 hash(query) 的 果将 query 写入到此外 10 个文件 (
) 中。 重生成的文件每个的大小大 也 1G(假 hash 函数是随机的 ) 。
找一台内存在 2G左右的机器,挨次 用 hash_map(query , query_count) 来
每个 query 出 的次数。利用迅速 / 堆 / 并排序依照出 次数 行排序。将排序好的 query
和 的 query_
原创力文档


文档评论(0)