大数据基础 单元3 单元测试(答案).docx

大数据基础 单元3 单元测试(答案).docx

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据基础

大数据

基础

单元3

测试答案

第PAGE\*Arabic1页/共NUMPAGES\*Arabic1页

单元3大数据存储与计算

单元测试

单元4

单元4

测试答案

1

2

3

4

5

C

A

D

B

B

6

7

8

9

10

B

D

A

C

B

二、填空题

1. 集中式、分布式

2. 命名空间镜像、编辑日志

3. put、get

4. 批处理、流处理

5. map、reduce

三、简答题

1. 分布式存储系统采用可扩展的系统结构,满足了大数据应用存储的需要,能够利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

2. 任何基于网络的数据共享系统最多只能满足数据一致性(Consistency)、可用性(Availability)和分区容忍性(PartitionTolerance)三个特性中的两个。

3. HDFS的文件写入操作流程:客户端(ClientNode)通过向元数据节点(NameNode)申请在分布式文件系统中创建一个新的文件,元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。客户端开始准备写入数据,文件将会被分成多个数据块。元数据节点为每一个数据块分配3个数据节点(DataNode)。文件的每一个数据块被存储到分配的第一个数据节点,第一个数据节点将数据块发送给第二个数据节点,第二个数据节点将数据块发送给第三个数据节点。数据块写入完成后,告知元数据节点写入完成,以此类推,直到所有数据写入完成。

HDFS的文件读取操作流程:客户端通过元数据节点查询文件的数据块信息,元数据节点首先确定文件存在,并且客户端有读取文件的权限,接着,对于每个数据块,元数据节点返回保存数据块的数据节点地址。客户端开始读取数据,连接保存文件的第一个数据块的最近的数据节点,读取数据块完成后,关闭和此数据节点的连接,然后连接此文件的下一个数据块的最近的数据节点,以此类推,直到读取完文件的所有数据块。

4. MapReduce计算过程经历Split、Map、Shuffle、Reduce等阶段:首先是“Split阶段”,每个输入文件进行切分,分片输入到map。接着进行到“Map阶段”,该阶段执行map任务,任务的数量由分片决定,该阶段提供Map接口,可以由开发者对输入的数据进行处理,得到计算需要的map阶段的输出数据。再者进入到“Shuffle”阶段,该阶段是MapReduce的核心,是奇迹发生的地方,该阶段描述着数据从map任务的输出到reduce任务的输入之间这段过程,也称为“混洗”。最后进入到“Reduce”阶段,该阶段执行reduce任务,reduce数量由分区数决定,结果文件的数量也由此决定,该阶段也提供Reduce接口,可以由开发者对来自shuffle的数据进行处理,得到理想的reduce阶段的输出数据。

5. 分布式计算按照对数据的处理时效分类,可以分为批处理和流处理两类。所谓批处理是指实时产生的新的数据先被存储起来,在未来的某个时间一批批的处理,它可以基于预定的时间间隔如每五分钟、或每天等处理一次,或在某些触发的条件下如新的数据容量达到预定规模等。所谓流处理是指实时产生的新的数据会被实时的一条条的处理,而不会等待到未来的某个时刻一批处理,如今,越来越多的系统设计用于流处理,以支持近乎实时的事件处理。

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档