- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2023 年大数据面试题归类
1 hadoop
(1 )概念题
1、简述 hadoop 生态组件
2、mapreduce 原理
3、对 mapreduce 的了解
4、hadoop 任务调度,进程调度
5、mapReduce 的过程
6、hadoop 的事务怎么操作
7、请描述 HDFS 存储的机制
8、请详细比较 Hadoop 和传统 SQL 数据库
9、请用 MapReduce 如何实现两张表连接,有哪些方法
10、请描述 MapReduce 架构中 combiner,partition 作用
11、.reduce 的数目为什么默认是一个
12、mapper reducer 数量如何确定
13、一个 datanode 死掉 ,会怎么样?如果这个datanode 之后恢复了,然后会怎
么样
14、说一下 HDFS 的全称
15、设置 map 个数是在哪个配置文件里
16、数据倾斜,什么时候出现 2 次 mapreduce
17、HA 配置过程
(2 )业务题
1、mapreduce 怎么同时读 2 个文件
2、对 mapreduce 进行过哪些调优
3、mapreduce 分析 top 项
4、Map 中的有 3 个 key,1 个 key 是另外两个 key 的和,如何操作
5、编写一个 mapreduce
6、用 mapreduce 简述一下实现最热商品(一天商品访问量)、会员用户活跃度(一天
登陆次数)、会员访问时长(一天内)等多个模块之间各个模块的 top 排序(前 10 个)
(3 )算法题
1、给 10 亿条记录,key 好像是 100 个字节,value 是 800 个字节长度,计算出前 100
个 Top 值
2、给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G ,
找出 a、b 文件共同的 url
3、在 hadoop 开发工程中主要用过哪些算法
2 HIVE
(1 )概念题
1、Hive 有几种交互方式
2、Hive 是怎么从本地装载数据到一个分区表中的
3、说下 Hive 中的 matastore 表
4、hive 中导致数据倾斜的原因有哪些及解决方案
5、谈谈 hive 和 hbase 的区别
6、Hive 中内部表与外部表的区别
7、怎么对 hive 进行优化的
8、Hive 中 sql 语句与 MySql 中 sql 语句的区别
9、ROW_NUMBER 使用的场景,有没有出现什么问题,如何解决问题的
10、UDAF 的编写
11、hive 和 hbase 交互,写 sql 语句分析的具体过程
12、sortby ,orderby ,distinctby 区别
13、hive 哪个版本的 distinct 有 bug,需要改写其他形式
14、如何干预负载均衡
(2 )业务题
1、用 HQL 两种方法简述一下实现最热商品(一天商品访问量)、会员用户活跃度(一
天登陆次数)、会员访问时长(一天内)等多个模块之间各个模块的 top 排序(前 10 个)。
2、UDTF 解析 IP 地址可行?怎么进行解析的
3、手写 sql 批量统计会话时长
4、Hive 语句实现 WordCount
假设数据存放在 Hadoop 下,路径为:/home/hadoop/worddata 里面全是一些单词
5、设定一个场景,解决数据倾斜
注意 :大部分面试要求手写 SQL 语句处理较为复杂的业务
3 HBase
(1 )概念题
1、rowkey 的设计
2、HBase 的优化
3、HBase 分区表的了解
4、mapreduce 与 Hbase 集成
5、HBase 读写
6、Hbase 的表设计
7、为什么不直接使用 Hive ,还要从Hbase 读取
8、java api 与 hbase 集成增删改
9、Hbase 的内部机制是啥么
10、HBase 宕机如何处理
11、HBas
您可能关注的文档
- 河北唐山市区县联考2023届高三下学期一模考试英语试题含解析.pdf
- 环境科学导论09级关键知识点-201012 .pdf
- 2023年电子商务师模拟试题含答案hp .pdf
- 徐州市2023年地理生物试卷 .pdf
- 2023年高考语文模拟试卷附答案解析 .pdf
- 辽宁省锦州市中考生物模拟试卷(一) .pdf
- 2023年信息技术考查试题(参考答案)试题8 .pdf
- 信息技术课程与教学论知到章节答案智慧树2023年海南师范大学.pdf
- 内蒙古自治区乌兰察布市成考专升本2023年艺术概论自考预测试题(含答 精品.pdf
- 海洋科学考研科目 .pdf
- 管理类管理学原理模拟题2020年(12)_真题(含答案与解析)-交互.pdf
- Java程序设计(华东交通大学)智慧树知到答案章节测试2023年 .pdf
- 2023届福建省高三适应性考试生物试题及答案 .pdf
- 绪言-2023年初升高化学新教材预习学案 .pdf
- 河北省廊坊市2022-2023学年高考化学五模试卷含解析 .pdf
- 2023年高考文科综合能力模拟试卷3(含答案解析) .pdf
- 健康教育与健康促进》形考任务1-5试题及答案 .pdf
- 2022-2023年度教科版小学六年级科学(下册)第4单元 物质的变化单元综合精品.pdf
- 专升本民法模拟试卷112_真题-无答案 .pdf
- 山东省日照市2022-2023学年高二下学期期中联考语文试题 .pdf
文档评论(0)