Miles-hadoop面考试试题-简.docxVIP

下载本文档

91
0
约1万字
约 27页
2018-05-23 发布于福建
举报
版权申诉

Miles-hadoop面考试试题-简.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1.0???简要描述如何安装配置apache的一个开源hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好。答：第一题：1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6? 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh，core-site.xml , mapred-site.xml ， hdfs-site.xml8 配置hadoop环境变量9 格式化 hadoop namenode-format10 启动节点start-all.sh3.0请写出以下的shell命令?（1）杀死一个job（2）删除hdfs上的 /tmp/aaa目录（3）加入一个新的存储节点和删除一个节点需要执行的命令答：（1）hadoop job –list?? 得到job的id，然后执????? 行 hadoop job? -kill ?jobId就可以杀死一个指定jobId的job工作了。（2）hadoopfs? -rmr?/tmp/aaa(3)? 增加一个新的节点在新的几点上执行??????????? Hadoop? daemon.sh?start? datanode???????????????????? Hadooop?daemon.sh? start??tasktracker/nodemanager?下线时，要在conf目录下的excludes文件中列出要下线的datanode机器主机名????????????? 然后在主节点中执行? hadoop??dfsadmin? -refreshnodes? à下线一个datanode删除一个节点的时候，只需要在主节点执行?hadoop mradmin?-refreshnodes? ---à下线一个tasktracker/nodemanager?4.0????? 请列出你所知道的hadoop调度器，并简要说明其工作方法答：Fifo schedular :默认，先进先出的原则Capacity schedular :计算能力调度器，选择占用最小、优先级高的先执行，依此类推。Fair schedular:公平调度，所有的 job 具有相同的资源。就用过 java 和 hiveQL。Java 写 mapreduce 可以实现复杂的逻辑，如果需求简单，则显得繁琐。HiveQL 基本都是针对 hive 中的表数据进行编写，但对复杂的逻辑（杂）很难进行实现。写起来简单。10.简述hadoop实现jion的几种方法Map side join----大小表join的场景，可以借助distributed cacheReduce side join?12.0 请简述mapreduce中的combine和partition的作用答：combiner是发生在map的最后一个阶段，其原理也是一个小型的reducer，主要作用是减少输出到reduce的数据量，缓解网络传输瓶颈，提高reducer的执行效率。partition的主要作用将map阶段产生的所有kv对分配给不同的reducer task处理，可以将reduce阶段的处理负载进行分摊18. 我们在开发分布式计算job的时候，是否可以去掉reduce阶段答：可以，例如我们的集群就是为了存储文件而设计的，不涉及到数据的计算，就可以将mapReduce都省掉。比如，流量运营项目中的行为轨迹增强功能部分怎么样才能实现去掉reduce阶段去掉之后就不排序了，不进行shuffle操作了19?hadoop中常用的数据压缩算法答：LzoGzipDefaultSnapyy如果要对数据进行压缩，最好是将原始数据转为SequenceFile? 或者 Parquet File（spark）20. mapreduce的调度模式（题意模糊，可以理解为yarn的调度模式，也可以理解为mr的内部工作流程）答： appmaster作为调度主管，管理maptask和reducetaskAppmaster负责启动、监控maptask和reducetaskMaptask处理完成之后，appmaster会监控到，然后将其输出结果通知给reducetask，然后reducetask从map端拉取文件，然后处理；当reduce阶段全部完成之后，appmaster还要向resourcemanager注销自己25.datanode在什么情况下不会备份数据答：在客户端上传文件时指定文件副本数量为126.combine出现在哪个过程答：shuffle过程中具体来说，是在maptask输出的数据从内存溢出到磁盘，可能会调多次Combiner使用时候要特别谨慎，不能影响最后的逻辑结果27. hdfs的体系结构答：集群架构：?namen