大数据技术与应用习题答案第3-4章.pdf

下载文档

0
0
约4.77千字
约 4页
2024-09-13 发布于中国
举报
版权申诉
保障服务

大数据技术与应用习题答案第3-4章.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据技术与应用习题答案第3-4章--第1页

3.7习题

一、选择题

1.B2.C3.B4.D5.B6.C7.D8.D

二、填空题

1.在HDFS文件系统读取文件的过程中，客户端通过对输入流调用_read()方法开始读

取数据；写入文件的过程中客户端通过对输出流调用___write()___方法开始写入数据。

2.HDFS全部文件的元数据是存储在NameNode节点的___硬盘______（硬盘/内存），

为了解决这个瓶颈，HDFS产生了____HA_____机制。

三、简答题

1.举例说明Hadoop的体系结构。

Hadoop其实是由一系列的软件库组成的框架。这些软件库也可称作功能模块，它们各

自负责了Hadoop的一部分功能，其中最主要的是Common、HDFS和YARN。Common提供

远程调用RPC、序列化机制，HDFS负责数据的存储，YARN则负责统一资源调度和管理等。

2.HDFS中数据副本的存放策略是什么?

HDFS默认的副本系数是3,这适用于大多数情况。副本存放策略是将第一个副本存放在本地

机架的节点上,将第二个副本放在同一机架的另一个节点上,将第三个副本放在不同机架的节

点上。这种策略减少了机架间的数据传输,这就提高了写操作的效率。

3.NameNode和DataNode的功能分别是什么？

元数据节点NameNode是管理者，一个Hadoop集群只有一个NameNode节点，是一个

通常在HDFS实例中的单独机器上运行的软件。NameNode主要负责HDFS文件系统的管理

工作，具体包括命名空间管理（namespace）和文件block管理。NameNode决定是否将文

件映射到DataNode的复制块上。对于最常见的3个复制块，第一个复制块存储在同一个机

架的不同节点上，最后一个复制块存储在不同机架的某个节点上。

NameNode是HDFS的大脑，它维护着整个文件系统的目录树，及目录树里所有的文件

和目录，这些信息以两种文件存储在本地文件中：一种是命名空间镜像，也称为文件系统镜

像（filesystemimage，FSImage），即HDFS元数据的完整快照，每次NameNode启动时，默

认会加载最新的命名空间镜像，另一种是命名空间镜像的编辑日志（editlog）。

第二名字节点SecondaryNameNode。第二名字节点是用于定期合并命名空间镜像和命

名空间镜像的编辑日志的辅助守护进程。每个HDFS集群都有一个SecondaryNameNode，在

生产环境下，一般SecondaryNameNode也会单独运行在一台服务器上。

4.根据自己的理解画出HDFS文件系统中文件读取的流程，并解释其中的各个步骤。

大数据技术与应用习题答案第3-4章--第1页

大数据技术与应用习题答案第3-4章--第2页

5.根据自己的理解画出HDFS文件系统中文件写入的流程，并解释其中的各个步骤。

1）请阐述数据采集有哪些方法？

（1）系统日志采集

许多公司的平台每天会产生大量的日志（一般为流式数据，如搜索引擎的pv，查询等），

处理这些日志需要特定的日志系统。因此日志采集系统的主要工作就是收集业务日志数据供

离线和在线的分析系统使用。这种大数据采集方式可以高效地收集、聚合和移动大量的日志

数据，并且能提供可靠的容错性能。高可用性、高可靠性和可扩展性是日志采集系统的基本

特征。目前常用的开源日志采集平台包含有：ApacheFl

您可能关注的文档

文档评论（0）

177****1893 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据技术与应用习题答案第3-4章.pdf