大数据基础单元3 单元测试（答案）.docx

下载文档

0
0
约1.55千字
约 2页
2024-07-04 发布于山东
举报
版权申诉
保障服务

大数据基础单元3 单元测试（答案）.docx

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据基础

大数据

基础

单元3

测试答案

第PAGE\*Arabic1页/共NUMPAGES\*Arabic1页

单元3大数据存储与计算

单元测试

单元4

测试答案

二、填空题

1．集中式、分布式

2．命名空间镜像、编辑日志

3． put、get

4．批处理、流处理

5． map、reduce

三、简答题

1．分布式存储系统采用可扩展的系统结构，满足了大数据应用存储的需要，能够利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

2．任何基于网络的数据共享系统最多只能满足数据一致性(Consistency)、可用性(Availability)和分区容忍性(PartitionTolerance)三个特性中的两个。

3． HDFS的文件写入操作流程：客户端（ClientNode）通过向元数据节点（NameNode）申请在分布式文件系统中创建一个新的文件，元数据节点首先确定文件原来不存在，并且客户端有创建文件的权限，然后创建新文件。客户端开始准备写入数据，文件将会被分成多个数据块。元数据节点为每一个数据块分配3个数据节点(DataNode)。文件的每一个数据块被存储到分配的第一个数据节点，第一个数据节点将数据块发送给第二个数据节点，第二个数据节点将数据块发送给第三个数据节点。数据块写入完成后，告知元数据节点写入完成，以此类推，直到所有数据写入完成。

HDFS的文件读取操作流程：客户端通过元数据节点查询文件的数据块信息，元数据节点首先确定文件存在，并且客户端有读取文件的权限，接着，对于每个数据块，元数据节点返回保存数据块的数据节点地址。客户端开始读取数据，连接保存文件的第一个数据块的最近的数据节点，读取数据块完成后，关闭和此数据节点的连接，然后连接此文件的下一个数据块的最近的数据节点，以此类推，直到读取完文件的所有数据块。

4． MapReduce计算过程经历Split、Map、Shuffle、Reduce等阶段：首先是“Split阶段”，每个输入文件进行切分，分片输入到map。接着进行到“Map阶段”，该阶段执行map任务，任务的数量由分片决定，该阶段提供Map接口，可以由开发者对输入的数据进行处理，得到计算需要的map阶段的输出数据。再者进入到“Shuffle”阶段，该阶段是MapReduce的核心，是奇迹发生的地方，该阶段描述着数据从map任务的输出到reduce任务的输入之间这段过程，也称为“混洗”。最后进入到“Reduce”阶段，该阶段执行reduce任务，reduce数量由分区数决定，结果文件的数量也由此决定，该阶段也提供Reduce接口，可以由开发者对来自shuffle的数据进行处理，得到理想的reduce阶段的输出数据。

5．分布式计算按照对数据的处理时效分类，可以分为批处理和流处理两类。所谓批处理是指实时产生的新的数据先被存储起来，在未来的某个时间一批批的处理，它可以基于预定的时间间隔如每五分钟、或每天等处理一次，或在某些触发的条件下如新的数据容量达到预定规模等。所谓流处理是指实时产生的新的数据会被实时的一条条的处理，而不会等待到未来的某个时刻一批处理，如今，越来越多的系统设计用于流处理，以支持近乎实时的事件处理。

您可能关注的文档

文档评论（0）

lai + 关注: 实名认证

内容提供者

精品资料

咨询Ta 进入空间

用户编号：7040145050000060

1亿VIP精品文档

更多 >

大数据基础单元3 单元测试（答案）.docx