大数据方向面试题大全.pdfVIP

  • 24
  • 0
  • 约4.81万字
  • 约 39页
  • 2020-12-29 发布于广东
  • 举报
更多课程请加QQ484683840 大数据面试题 更多课程请加QQ484683840 目录 hadoop 面试题 1.讲述HDFS 上传文件和读文件的流程 2 2.HDFS 在上传文件的时候,如果其中一个块突然损坏了怎么办? 2 3.NameNode 的作用 2 4.NameNode 在启动的时候会做哪些操作 2 5.NameNode 的HA 3 6.Hadoop 的作业提交流程 4 7.Hadoop 怎么分片 4 8.如何减少Hadoop Map 端到Reduce 端的数据传输量 4 9.Hadoop 的Shuffle? 4 10.哪些场景才能使用Combiner 呢? 5 11.HMaster 的作用 5 12.如何实现hadoop 的安全机制 5 13.hadoop 的调度策略的实现,你们使用的是那种策略,为什么。 5 14.数据倾斜怎么处理? 6 15.评述hadoop 运行原理 6 16.简答说一下hadoop 的map-reduce 编程模型 6 17.hadoop 的TextInputFormat 作用是什么,如何自定义实现 6 18.map-reduce 程序运行的时候会有什么比较常见的问题 7 19.Hadoop 平台集群配置、环境变量设置? 7 20.Hadoop 性能调优? 7 21.Hadoop 高并发? 8 Hive 面试题 1. hadoop 中两个大表实现join 的操作,简单描述。 2 2.Hive 中存放是什么? 2 3.Hive 与关系型数据库的关系? 2 4.讲一下数据库,SQl ,左外连接, 原理,实现? 2 5.大表和小表join 2 6. 数据清洗怎么做的?怎么用spark 做数据清洗 2 7. Hadoop 中二次排序怎么做? 2 8. hadoop 常见的join 操作? 3 9. hive 优化有哪些? 3 10. 分析函数? 3 Spark 面试题 1.Spark 的Shuffle 原理及调优 2 2.hadoop 和spark 使用场景? 4 3.spark 如何保证宕机迅速恢复? 5 4.hadoop 和spark 的相同点和不同点? 5 5.RDD 持久化原理? 5 6.checkpoint 检查点机制? 6 更多课程请加QQ484683840 7.checkpoint 和持久化机制的区别? 6 8.Spark Streaming 和Storm 有何区别? 6 9.RDD 机制? 7 10.Spark streaming 以及基本工作原理? 7 11.DStream 以及基本工作原理? 7 12.spark 有哪些组件? 7 13.spark 工作机制? 8 14.Spark 工作的一个流程? 8 15.spark 核心编程原理? 8 16.spark 基本工作原理? 8 17.spark 性能优化有哪些? 8 18.updateStateByKey 12 19.宽依赖和窄依赖 12 20.spark streaming 中有状态转化操作? 12 21.spark 常用的计算框架? 13 22.spark 整体架构? 14 23.Spark 的特点是什么? 14 24.搭建spark 集群步骤? 14 25.Spark 的三种提交模式是什么? 15 26..spark 内核架构原理 15 27.Spark yarn-cluster 架构? 15 28.Spark yarn-client 架构? 16 29.SparkContext 初始化原理? 16 30.Spark 主备切换机制原理剖析? 16 31.spark 支持故障恢复的方式? 16 32.spark 解决了hadoop 的哪些问题? 17 33.数据倾斜的产生和解决办法? 17 34.spark 实现高可用性:High Availability 17 35.spark 实际工作中,是怎么来根据任务量,判定需要多少资源的? 19 更

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档