大数据技术与应用习题答案第3-4章.pdf

大数据技术与应用习题答案第3-4章.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据技术与应用习题答案第3-4章--第1页

3.7习题

一、选择题

1.B2.C3.B4.D5.B6.C7.D8.D

二、填空题

1.在HDFS文件系统读取文件的过程中,客户端通过对输入流调用_read()方法开始读

取数据;写入文件的过程中客户端通过对输出流调用___write()___方法开始写入数据。

2.HDFS全部文件的元数据是存储在NameNode节点的___硬盘______(硬盘/内存),

为了解决这个瓶颈,HDFS产生了____HA_____机制。

三、简答题

1.举例说明Hadoop的体系结构。

Hadoop其实是由一系列的软件库组成的框架。这些软件库也可称作功能模块,它们各

自负责了Hadoop的一部分功能,其中最主要的是Common、HDFS和YARN。Common提供

远程调用RPC、序列化机制,HDFS负责数据的存储,YARN则负责统一资源调度和管理等。

2.HDFS中数据副本的存放策略是什么?

HDFS默认的副本系数是3,这适用于大多数情况。副本存放策略是将第一个副本存放在本地

机架的节点上,将第二个副本放在同一机架的另一个节点上,将第三个副本放在不同机架的节

点上。这种策略减少了机架间的数据传输,这就提高了写操作的效率。

3.NameNode和DataNode的功能分别是什么?

元数据节点NameNode是管理者,一个Hadoop集群只有一个NameNode节点,是一个

通常在HDFS实例中的单独机器上运行的软件。NameNode主要负责HDFS文件系统的管理

工作,具体包括命名空间管理(namespace)和文件block管理。NameNode决定是否将文

件映射到DataNode的复制块上。对于最常见的3个复制块,第一个复制块存储在同一个机

架的不同节点上,最后一个复制块存储在不同机架的某个节点上。

NameNode是HDFS的大脑,它维护着整个文件系统的目录树,及目录树里所有的文件

和目录,这些信息以两种文件存储在本地文件中:一种是命名空间镜像,也称为文件系统镜

像(filesystemimage,FSImage),即HDFS元数据的完整快照,每次NameNode启动时,默

认会加载最新的命名空间镜像,另一种是命名空间镜像的编辑日志(editlog)。

第二名字节点SecondaryNameNode。第二名字节点是用于定期合并命名空间镜像和命

名空间镜像的编辑日志的辅助守护进程。每个HDFS集群都有一个SecondaryNameNode,在

生产环境下,一般SecondaryNameNode也会单独运行在一台服务器上。

4.根据自己的理解画出HDFS文件系统中文件读取的流程,并解释其中的各个步骤。

大数据技术与应用习题答案第3-4章--第1页

大数据技术与应用习题答案第3-4章--第2页

5.根据自己的理解画出HDFS文件系统中文件写入的流程,并解释其中的各个步骤。

1)请阐述数据采集有哪些方法?

(1)系统日志采集

许多公司的平台每天会产生大量的日志(一般为流式数据,如搜索引擎的pv,查询等),

处理这些日志需要特定的日志系统。因此日志采集系统的主要工作就是收集业务日志数据供

离线和在线的分析系统使用。这种大数据采集方式可以高效地收集、聚合和移动大量的日志

数据,并且能提供可靠的容错性能。高可用性、高可靠性和可扩展性是日志采集系统的基本

特征。目前常用的开源日志采集平台包含有:ApacheFl

文档评论(0)

177****1893 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档