大数据方向面试题大全大数据面试公司题及总结答案.pdfVIP

  • 25
  • 0
  • 约1.44万字
  • 约 32页
  • 2021-10-23 发布于河南
  • 举报

大数据方向面试题大全大数据面试公司题及总结答案.pdf

面试反馈反思: 面试公司:特斯联-大数据开发工程师 1:yarn? 参考博 (Hadoop MapReduceV2(Yarn) 框架简介): 答题思路:解决 MapReduce1.0 版本的 JobTracker/TaskTracker 难 于扩展的问题,解耦它的资源调度和任务的调度,因此产生了 yarn,既MapReduce2.0 版本:MapReduceV2 或者叫 Yarn 一个应用程序是如何在 yarn 上执行的? 2:Spark 的运行模式 Local(N):N 表示线程数 Spark on standalone standalone-client: tandalone-client: spark on yarn yarn-Client: yarn-cluster: 3:机器学习:梯度下降 求解机器学习算法的模型参数,梯度下降(Gradient Descent)是 最常采用的方法之一,另一种常用的方法是最小二乘法 在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来 一步步的迭代求解,得到最小化的损失函数,和模型参数值 面试公司:多牛传媒-多牛传媒 spark 工程师 多牛传媒面试题解析: 三人面试(人事,spark 开发,部门总监),面试时间 1.5 小时 人事让介绍自己,为什么想换工作 答:请参考自我介绍,换工作的理由:1:找一个更大的平台,能够 有更大的发展空间;2:准备买房结婚了,希望找一个薪资待遇更好 的工作 总监问 sparksql 和 sparkstreaming 哪个比较熟 答:都还行,SparkSql 的DataFrame 或者 DataSet 和 SparkStreaming 的DStream 都是基于 SparkCore 的,最终都会转化 为 Spark task 执行。我们可以交流一下本质的东西 SparkCore,而 SparkCore 的核心又是RDD。 开发问可以说一下 sparkshuffle 吗? 答:Spark 的 shuffle 也是一处理问题的思想:分而治之。shuffle 一般称为洗牌,一般会有 Shuffle Write 阶段和Shuffle Read 阶 段。在 Spark 中实现Shuffle 的方式有两种,一种是 HashShuffle,一种是SortShuffle。Shuffle的性能是影响 Spark应用程序性能的关键。Shuffle发生在Stag e之间,Stage中用的pipline的计算模式。 HashShuffle 又有实现又有 2 种机制: 1:HashShuffle 的普通机制,画图,HashShuffle 的普通机制的 问题 2:HashShuffle 合并机制,画图,解决了的问题 SortShuffle 实现也有 2 种机制: 1:SortShuffle 的普通机制,出现的问题,画图 2:SortShuffle 的ByPass 机制,细节。 Spark Shuffle 的数据位置定位和拉取数据的组件: 主:MapOutputTrackerMaster存在 Driver 进程中 从:MapOutputTrackerWorker存在 Executor 进程中 BlockManager 组件:块管理者 BlockManagerMaster:存在Driver 中 1:DiskStore:负责磁盘的管理 2:MemStore:负责内存的管理 3:ConnectionManager:负责连接其他的BlockManagerSlave 4:BlockTransforService :负责数据的传输 Spark Shuffle 的调优点: 1:Shuffle 的选择 2:缓冲区的大小 3:拉去的数据量的大小 4:间隔时间重试次数 开发问缓存这块熟悉吗,介绍缓存级别 答:Spark 的缓存机制是Spark 优化的一个重要点,它将需要重复 使用或者共用的 RDD 缓存在内存中,可以提高 Spark 的性能。 Spark 的底层源码中使用StorageLevel 来表示缓存机制,其中包 括:使用内存,使用磁盘,使用序列化,使用堆外内存。在他的半 生对象中基于这几种方式提供了一些实现:不使用缓存, Memory_Only Disk_only

文档评论(0)

1亿VIP精品文档

相关文档