大数据方向面试题大全大数据面试公司题及总结答案.pdfVIP

下载本文档

25
0
约1.44万字
约 32页
2021-10-23 发布于河南
举报

大数据方向面试题大全大数据面试公司题及总结答案.pdf

面试反馈反思：面试公司：特斯联-大数据开发工程师 1：yarn？参考博 (Hadoop MapReduceV2(Yarn) 框架简介)：答题思路：解决 MapReduce1.0 版本的 JobTracker/TaskTracker 难于扩展的问题，解耦它的资源调度和任务的调度，因此产生了 yarn，既MapReduce2.0 版本：MapReduceV2 或者叫 Yarn 一个应用程序是如何在 yarn 上执行的？ 2：Spark 的运行模式 Local(N):N 表示线程数 Spark on standalone standalone-client: tandalone-client: spark on yarn yarn-Client: yarn-cluster: 3：机器学习：梯度下降求解机器学习算法的模型参数，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值面试公司：多牛传媒-多牛传媒 spark 工程师多牛传媒面试题解析：三人面试（人事，spark 开发，部门总监），面试时间 1.5 小时人事让介绍自己，为什么想换工作答：请参考自我介绍，换工作的理由：1：找一个更大的平台，能够有更大的发展空间；2：准备买房结婚了，希望找一个薪资待遇更好的工作总监问 sparksql 和 sparkstreaming 哪个比较熟答：都还行，SparkSql 的DataFrame 或者 DataSet 和 SparkStreaming 的DStream 都是基于 SparkCore 的，最终都会转化为 Spark task 执行。我们可以交流一下本质的东西 SparkCore，而 SparkCore 的核心又是RDD。开发问可以说一下 sparkshuffle 吗？答：Spark 的 shuffle 也是一处理问题的思想：分而治之。shuffle 一般称为洗牌，一般会有 Shuffle Write 阶段和Shuffle Read 阶段。在 Spark 中实现Shuffle 的方式有两种，一种是 HashShuffle，一种是SortShuffle。Ｓｈｕｆｆｌｅ的性能是影响Ｓｐａｒｋ应用程序性能的关键。Ｓｈｕｆｆｌｅ发生在Ｓｔａｇｅ之间，Ｓｔａｇｅ中用的ｐｉｐｌｉｎｅ的计算模式。 HashShuffle 又有实现又有 2 种机制： 1：HashShuffle 的普通机制，画图，HashShuffle 的普通机制的问题 2：HashShuffle 合并机制，画图，解决了的问题 SortShuffle 实现也有 2 种机制： 1：SortShuffle 的普通机制，出现的问题，画图 2：SortShuffle 的ByPass 机制，细节。 Spark Shuffle 的数据位置定位和拉取数据的组件：主：MapOutputTrackerMaster存在 Driver 进程中从：MapOutputTrackerWorker存在 Executor 进程中 BlockManager 组件：块管理者 BlockManagerMaster：存在Driver 中 1：DiskStore：负责磁盘的管理 2：MemStore：负责内存的管理 3：ConnectionManager：负责连接其他的BlockManagerSlave 4：BlockTransforService ：负责数据的传输 Spark Shuffle 的调优点： 1：Shuffle 的选择 2：缓冲区的大小 3：拉去的数据量的大小 4：间隔时间重试次数开发问缓存这块熟悉吗，介绍缓存级别答：Spark 的缓存机制是Spark 优化的一个重要点，它将需要重复使用或者共用的 RDD 缓存在内存中，可以提高 Spark 的性能。 Spark 的底层源码中使用StorageLevel 来表示缓存机制，其中包括：使用内存，使用磁盘，使用序列化，使用堆外内存。在他的半生对象中基于这几种方式提供了一些实现：不使用缓存， Memory_Only Disk_only

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大数据方向面试题大全大数据面试公司题及总结答案.pdfVIP