大数据开发笔试.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1、 hdfs 原理,以及各个模块的职责 答:Hadoop Distributed File System 即:Hadoop 分布式文件系统,就是把数据划分成不同的Block 分别存储在不同节点的设备上。它分为两个部分:NameNode 和DateNode,NameNode 相当于一个领导, 将文件系统的 Meta-data 存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息 和每一个文件块在DataNode 的信息等。它管理集群内的DataNode,当客户发送请求过来后,NameNode 会根据Meta-data 指定存储到哪些DataNode 上,而其本身并不存储真实的数据。 2、 mr 的工作原理 答:当客户提交作业后,MapReduce 库先把任务splits 不同的块,然后根据“移动计算比移动数据 更明智”的思想,把任务分发到各个DataNode 上。在不同的 DataNode 上分别执行 Map 操作,产生键值 对,然后通过 shuffle 重新洗牌,把键值相同的键值对传给同一个 reduce,把键值不同的键值对传给不同 的reduce 进行处理,最后输出结果。这些按照时间顺序包括:输入分片(input split)、map 阶段、combiner 阶段、shuffle 阶段和reduce 阶段。(5 个阶段) 3、map 方法是如何调用reduc 方法的 答:Shuffl 过程是MapReduc 的核心,也被称为奇迹发生的地方,Hadoop 的shuffl 过程就是从map 端输出到reduc 端输入之间的过程。 map 过程的输出是写入本地磁盘而不是 HDFS,但是一开始数据并不是直接写入磁盘而是缓冲在内存 中,缓存的好处就是减少磁盘I/O 的开销,提高合并和排序的速度。默认的内存缓冲大小是100M (可以配 置),所以在书写map 函数的时候要尽量减少内存的使用,为shuffl 过程预留更多的内存,因为该过程是 最耗时的过程。当缓冲的内存大小使用超过一定的阈值(默认80% ),一个后台的线程就会启动把缓冲区中 的数据写入(spill )到磁盘中,往内存中写入的线程继续写入知道缓冲区满,缓冲区满后线程阻塞直至缓冲 区被清空。在数据spill 到磁盘的过程中会有一些额外的处理,调用partition 函数、combin 函数(如果设 置)、对数据进行排序(按 key 排序)。如果发生多次磁盘的溢出写,会在磁盘上形成几个溢出写文件,在 map 过程结束时,要将这些文件进行合并生成一个大的分区的排序的文件。 reduc 端可能从n 多map 的结果中获取数据,而这些map 的执行速度不尽相同,当其中一个map 运行结 束时,reduc 就会从jobtractor 中获取该信息。map 运行结束后tasktractor 会得到消息,进而将消息汇报给 jobtractor ,reduc 定时从jobtractor 获取该信息,reduc 端默认有5 个线程从map 端拖拉数据。 4 、shell 如何判断文件是否存在,如果不存在该如何处理? if [ ! -f $file ]; then touch $file fi 不存在就创建一个吧。 5、fsimag 和edit 的区别? 答:fsimag 保存了最新的元数据检查点,edits 保存自最新检查点后的命名空间的变化。从最新检查 点后,hadoop 将对每个文件的操作都保存在edits 中,为避免edits 不断增大,secondary namenod 就会周 期性合并fsimag 和edits 成新的fsimag ,edits 再记录新的变化, 这种机制有个问题:因edits 存放在Namenod 中,当Namenod 挂掉,edits 也会丢失,导致利用secondary namenod 恢复Namenod 时,会有部分数据丢失。 6、hadoop1 和hadoop2 的区别? 答:Hadoop2 相比较于Hadoop1.x 来说,HDFS 的架构与MapReduc 的都有较大的变化,且速度上和 可用性上都有了很大的提高,Hadoop2 中有两个重要的变更:首先HDFS 的NameNodes 可以以集群的方式 布署,增强了 NameNodes 的水平扩展能力和可用性,可以同时部署多个NameNod

文档评论(0)

137****4633 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档