数据分析面试题及答案 .pdfVIP

  • 8
  • 0
  • 约7.8千字
  • 约 8页
  • 2024-12-17 发布于河南
  • 举报

数据分析面试题及答案

数据分析面试题及答案

1.问题描述

在大规模数据处理中,常遇到的一类问题是,在海量数据中找出

出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,

这类问题通常称为“topK”问题,如:在搜索引擎中,统计搜索最热

门的10个查询词;在歌曲库中统计下载率最高的前10首歌等等。

2.当前解决方案

针对topk类问题,通常比较好的方案是【分治+trie树/hash+小

顶堆】,即先将数据集按照hash方法分解成多个小数据集,然后使用

trie树或者hash统计每个小数据集中的query词频,之后用小顶堆求

出每个数据集中出频率最高的前K个数,最后在所有topK中求出最

终的topK。

实际上,最优的解决方案应该是最符合实际设计需求的方案,在

实际应用中,可能有足够大的内存,那么直接将数据扔到内存中一次

性处理即可,也可能机器有多个核,这样可以采用多线程处理整个数

据集。

本文针对不同的应用场景,介绍了适合相应应用场景的解决方案。

3.解决方案

3.1单机+单核+足够大内存

设每个查询词平均占8Byte,则

文档评论(0)

1亿VIP精品文档

相关文档