Miles-hadoop面考试试题-简.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.0???简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:第一题:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6? 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml8 配置hadoop环境变量9 格式化 hadoop namenode-format10 启动节点start-all.sh3.0请写出以下的shell命令?(1)杀死一个job(2)删除hdfs上的 /tmp/aaa目录(3)加入一个新的存储节点和删除一个节点需要执行的命令答:(1)hadoop job –list?? 得到job的id,然后执????? 行 hadoop job? -kill ?jobId就可以杀死一个指定jobId的job工作了。(2)hadoopfs? -rmr?/tmp/aaa(3)? 增加一个新的节点在新的几点上执行??????????? Hadoop? daemon.sh?start? datanode???????????????????? Hadooop?daemon.sh? start??tasktracker/nodemanager?下线时,要在conf目录下的excludes文件中列出要下线的datanode机器主机名????????????? 然后在主节点中执行? hadoop??dfsadmin? -refreshnodes? à下线一个datanode删除一个节点的时候,只需要在主节点执行?hadoop mradmin?-refreshnodes? ---à下线一个tasktracker/nodemanager?4.0????? 请列出你所知道的hadoop调度器,并简要说明其工作方法答:Fifo schedular :默认,先进先出的原则Capacity schedular :计算能力调度器,选择占用最小、优先级高的先执行,依此类推。Fair schedular:公平调度,所有的 job 具有相同的资源。就用过 java 和 hiveQL。Java 写 mapreduce 可以实现复杂的逻辑,如果需求简单,则显得繁琐。HiveQL 基本都是针对 hive 中的表数据进行编写,但对复杂的逻辑(杂)很难进行实现。写起来简单。10.简述hadoop实现jion的几种方法Map side join----大小表join的场景,可以借助distributed cacheReduce side join?12.0 请简述mapreduce中的combine和partition的作用答:combiner是发生在map的最后一个阶段,其原理也是一个小型的reducer,主要作用是减少输出到reduce的数据量,缓解网络传输瓶颈,提高reducer的执行效率。partition的主要作用将map阶段产生的所有kv对分配给不同的reducer task处理,可以将reduce阶段的处理负载进行分摊18. 我们在开发分布式计算job的时候,是否可以去掉reduce阶段答:可以,例如我们的集群就是为了存储文件而设计的,不涉及到数据的计算,就可以将mapReduce都省掉。比如,流量运营项目中的行为轨迹增强功能部分怎么样才能实现去掉reduce阶段去掉之后就不排序了,不进行shuffle操作了19?hadoop中常用的数据压缩算法答:LzoGzipDefaultSnapyy如果要对数据进行压缩,最好是将原始数据转为SequenceFile? 或者 Parquet File(spark)20. mapreduce的调度模式(题意模糊,可以理解为yarn的调度模式,也可以理解为mr的内部工作流程)答: appmaster作为调度主管,管理maptask和reducetaskAppmaster负责启动、监控maptask和reducetaskMaptask处理完成之后,appmaster会监控到,然后将其输出结果通知给reducetask,然后reducetask从map端拉取文件,然后处理;当reduce阶段全部完成之后,appmaster还要向resourcemanager注销自己25.datanode在什么情况下不会备份数据答:在客户端上传文件时指定文件副本数量为126.combine出现在哪个过程答:shuffle过程中具体来说,是在maptask输出的数据从内存溢出到磁盘,可能会调多次Combiner使用时候要特别谨慎,不能影响最后的逻辑结果27. hdfs的体系结构答:集群架构:?namen

文档评论(0)

moon8888 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档