- 186
- 0
- 约3.22千字
- 约 4页
- 2021-03-31 发布于江苏
- 举报
数据分析师常用7道笔试题目及答案
导读:摸索性数据分析侧重于在数据之中发现新特性,而验证性数据分析则侧重于已有假设证明或证伪。如下是由小编J.L为您整顿推荐实用应聘笔试题目和经验,欢迎参照阅读。
1、海量日记数据,提取出某日访问百度次数最多那个IP。
一方面是这一天,并且是访问百度日记中IP取出来,逐个写入到一种大文献中。注意到IP是32位,最多有个2^32个IP。同样可以采用映射办法,例如模1000,把整个大文献映射为1000个小文献,再找出每个小文中浮现频率最大IP(可以采用hash_map进行频率记录,然后再找出频率最大几种)及相应频率。然后再在这1000个最大IP中,找出那个频率最大IP,即为所求。
或者如下阐述:
算法思想:分而治之+Hash
1.IP地址最多有2^32=4G种取值状况,因此不能完全加载到内存中解决;
2.可以考虑采用“分而治之”思想,按照IP地址Hash(IP)24值,把海量IP日记分别存储到1024个小文献中。这样,每个小文献最多包括4MB个IP地址;
3.对于每一种小文献,可以构建一种IP为key,浮现次数为valueHash map,同步记录当前浮现次数最多那个IP地址;
4.可以得到1024个小文献中浮现次数最多IP,再根据常规排序算法得到总体上浮现次数最多IP;
2、搜索引擎会通过日记文献把顾客每次检索使用所有检索串都记录下来,每个查询串长度为1-255字节。
假设当前有一千万个记录(这些查询串重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一种查询串重复度越高,阐明查询它顾客越多,也就是越热门。),请你记录最热门10个查询串,规定使用内存不能超过1G。
典型Top K算法,还是在这篇文章里头有所阐述,
文中,给出最后算法是:
第一步、先对这批海量数据预解决,在O(N)时间内用Hash表完毕记录(之前写成了排序,特此订正。July、.04.27);
第二步、借助堆这个数据构造,找出Top K,时间复杂度为N‘logK。
即,借助堆构造,咱们可以在log量级时间内查找和调节/移动。因而,维护一种K(该题目中是10)大小小根堆,然后遍历300万Query,分别和根元素进行对比因此,咱们最后时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参照原文。
或者:采用trie树,核心字域存该查询串浮现次数,没有浮现为0。最后用10个元素最小推来对浮现频率进行排序。
3、有一种1G大小一种文献,里面每一行是一种词,词大小不超过16字节,内存限制大小是1M。返回频数最高100个词。
方案:顺序读文献中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文献(记为x0,x1,…x4999)中。这样每个文献大概是200k左右。
如果其中有文献超过了1M大小,还可以按照类似办法继续往下分,直到分解得到小文献大小都不超过1M。
对每个小文献,记录每个文献中浮现词以及相应频率(可以采用trie树/hash_map等),并取出浮现频率最大100个词(可以用含 100 个结点最小堆),并把100个词及相应频率存入文献,这样又得到了5000个文献。下一步就是把这5000个文献进行归并(类似与归并排序) 过程了。
4、有10个文献,每个文献1G,每个文献每一行存储都是顾客query,每个文献query都也许重复。规定你按照query频度排序。
还是典型TOP K算法,解决方案如下:
方案1:
顺序读取10个文献,按照hash(query)成果将query写入到此外10个文献(记为)中。这样新生成文献每个大小大概也1G(假设hash函数是随机)。
找一台内存在2G左右机器,依次对用hash_map(query, query_count)来记录每个query浮现次数。运用迅速/堆/归并排序按照浮现次数进行排序。将排序好query和相应 query_cout输出到文献中。这样得到了10个排好序文献(记为)。
对这10个文献进行归并排序(内排序与外排序相结合)。
方案2:
普通query总量是有限,只是重复次数比较多而已,也许对于所有query,一次性就可以加入到内存了。这样,咱们就可以采用trie树/hash_map等直接来记录每个query浮现次数,然后按浮现次数做迅速/堆/归并排序就可以了。
方案3:
与方案1类似,但在做完hash,提成各种文献后,可以交给各种文献来解决,采用分布式架构来解决(例如MapReduce),最后再进行合并。
5、给定a、b两个文献,各存储50亿个url,每个url各占64字节,内存
您可能关注的文档
最近下载
- 环保监测中的大数据与数据挖掘技术应用.docx VIP
- 2025年上半年中小学教师资格考试思想政治学科知识与教学能力真题(高级中学).docx VIP
- 2019版新人教版高中英语必修+选择性必修共7册词汇表汇总(带音标).pdf VIP
- 魏晋南北朝花鸟画:艺术独立与文化内涵的溯源.docx
- 工商银行流水模板.pdf VIP
- 2026年春季人教版小学数学二年级下册(2024新教材)教学计划含进度表.docx VIP
- 四川大学《物理化学》2019-2020学年期末试卷.pdf VIP
- 电工电子技术习题答案说课稿.pptx VIP
- 四川大学物理化学期末试卷.doc VIP
- 安装工程施工织设计资料.doc VIP
原创力文档

文档评论(0)