大数据方向面试题大全.pdfVIP

下载本文档

24
0
约4.81万字
约 39页
2020-12-29 发布于广东
举报

大数据方向面试题大全.pdf

更多课程请加QQ484683840 大数据面试题更多课程请加QQ484683840 目录 hadoop 面试题 1.讲述HDFS 上传文件和读文件的流程 2 2.HDFS 在上传文件的时候，如果其中一个块突然损坏了怎么办？ 2 3.NameNode 的作用 2 4.NameNode 在启动的时候会做哪些操作 2 5.NameNode 的HA 3 6.Hadoop 的作业提交流程 4 7.Hadoop 怎么分片 4 8.如何减少Hadoop Map 端到Reduce 端的数据传输量 4 9.Hadoop 的Shuffle? 4 10.哪些场景才能使用Combiner 呢？ 5 11.HMaster 的作用 5 12.如何实现hadoop 的安全机制 5 13.hadoop 的调度策略的实现，你们使用的是那种策略，为什么。 5 14.数据倾斜怎么处理？ 6 15.评述hadoop 运行原理 6 16.简答说一下hadoop 的map-reduce 编程模型 6 17.hadoop 的TextInputFormat 作用是什么，如何自定义实现 6 18.map-reduce 程序运行的时候会有什么比较常见的问题 7 19.Hadoop 平台集群配置、环境变量设置？ 7 20.Hadoop 性能调优？ 7 21.Hadoop 高并发？ 8 Hive 面试题 1. hadoop 中两个大表实现join 的操作，简单描述。 2 2.Hive 中存放是什么？ 2 3.Hive 与关系型数据库的关系？ 2 4.讲一下数据库，SQl ，左外连接，原理，实现？ 2 5.大表和小表join 2 6. 数据清洗怎么做的？怎么用spark 做数据清洗 2 7. Hadoop 中二次排序怎么做？ 2 8. hadoop 常见的join 操作？ 3 9. hive 优化有哪些？ 3 10. 分析函数？ 3 Spark 面试题 1.Spark 的Shuffle 原理及调优 2 2.hadoop 和spark 使用场景？ 4 3.spark 如何保证宕机迅速恢复? 5 4.hadoop 和spark 的相同点和不同点？ 5 5.RDD 持久化原理？ 5 6.checkpoint 检查点机制？ 6 更多课程请加QQ484683840 7.checkpoint 和持久化机制的区别？ 6 8.Spark Streaming 和Storm 有何区别？ 6 9.RDD 机制？ 7 10.Spark streaming 以及基本工作原理？ 7 11.DStream 以及基本工作原理？ 7 12.spark 有哪些组件？ 7 13.spark 工作机制？ 8 14.Spark 工作的一个流程？ 8 15.spark 核心编程原理？ 8 16.spark 基本工作原理？ 8 17.spark 性能优化有哪些？ 8 18.updateStateByKey 12 19.宽依赖和窄依赖 12 20.spark streaming 中有状态转化操作？ 12 21.spark 常用的计算框架？ 13 22.spark 整体架构？ 14 23.Spark 的特点是什么？ 14 24.搭建spark 集群步骤？ 14 25.Spark 的三种提交模式是什么？ 15 26..spark 内核架构原理 15 27.Spark yarn-cluster 架构？ 15 28.Spark yarn-client 架构？ 16 29.SparkContext 初始化原理？ 16 30.Spark 主备切换机制原理剖析？ 16 31.spark 支持故障恢复的方式？ 16 32.spark 解决了hadoop 的哪些问题？ 17 33.数据倾斜的产生和解决办法？ 17 34.spark 实现高可用性：High Availability 17 35.spark 实际工作中，是怎么来根据任务量，判定需要多少资源的？ 19 更

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大数据方向面试题大全.pdfVIP