大数据采集与处理期末复习题 .pdfVIP

下载本文档

7
0
约3.82千字
约 2页
2023-12-26 发布于河南
举报
版权申诉

大数据采集与处理期末复习题 .pdf

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

⼤数据采集与处理期末复习题

填空：

1.数据产⽣⽅式经历的阶段：运营式系统阶段、⽤户原创内容阶段和感知式系统阶段

2.⼤数据的四个特点：数据量⼤、数据类型繁多、处理速度快和价值密度低。

3.⼤数据的四种范式：实验、理论、计算、数据密集型

4.⼤数据计算模式：批处理计算、流计算、图计算、查询分析计算

5.Hadoop的特性：⾼可靠性、⾼效性、⾼可扩展性、⾼容错性、成本低、运⾏在Linux平台上、⽀持多种编程语⾔

6.Hadoop的核⼼：HDFS和MapReduce

7.分布式⽂件系统的节点：⼀类叫主节点（名称节点）或从节点（数据节点）

8.Hbase：采⽤⾏键、列族、列限定符和时间戳进⾏索引

9.Hbase：三个主要的功能组件：库函数，链接到每个客户端；⼀个Master主服务器；许多个Region服务器

10.Hbase：三层结构Zookeeper⽂件-ROOT-表.META.表

11.Hbase系统架构：客户端、Zookeeper服务器、Master主服务器、Region服务器，⼀般采⽤HDFS作为底层数据存储

12.NoSQL数据库三个特点：灵活的可扩展性、灵活的数据模型、与云计算紧密融合

13.关系数据库⽆法满⾜Web2.0的需求的三个⽅⾯：⽆法满⾜海量数据的管理需求、⽆法满⾜数据⾼并发的需求、⽆法满⾜⾼可扩展性

和⾼可⽤性的需求。

14.NoSQL的四⼤类型：键值数据库、列族数据库、⽂档数据库、图数据库

15.NoSQL三⼤基⽯：CAP、BASE和最终⼀致性

16.CAP指的是：C⼀致性A可⽤性P分区容忍性三选⼆

17.数据库事务具有ACID四性：A原⼦性、C⼀致性、I隔离性、D持久性

18.BASE基本含义：基本可⽤、软状态、最终⼀致性

19.云数据库具有以下特性：动态可扩展、⾼可⽤性、较低的使⽤代价、易⽤性、⾼性能、免维护、安全

20.YARN体系机构中包含了三个组件：ResourceManager、ApplicationMaster、NodeManager

21.Spark四个特点：运⾏速度快、容易使⽤、通⽤性、运⾏模式多样

22.Spark具有以下优点：Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多数据集操作类型，编程模

型⽐MapReduce

Sperk提供了内存计算，中间结果之间放在内存中，带来了更⾼的迭代执⾏机制

Sperk基于DAG的任务调度执⾏机制，要优于MapReduce的迭代执⾏机制

23.数据的两种类型：静态数据和流数据

24.计算模式：批量计算和实时计算

25.Storm主要术语：Streams、Spouts、Bolts、Topology、StreamGroupings

26.SparkStreaming和Storm最⼤的区别在于，Spark⽆法实现毫秒级的流计算，⽽Storm则可以实现毫秒级响应。

27.Pregel图计算模型：有向图和顶点、顶点之间的消息传递、Pregel的计算过程

28.推荐⽅法：专家推荐、基于统计的推荐、基于内容的推荐、协同过滤推荐、混合推荐

名词解释：

1.分布式⽂件系统的概念：是⼀种通过⽹络实现⽂件在多台主机上进⾏分布式存储的⽂件系统

2.HDFS：是Hadoop项⽬的核⼼⼦项⽬，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超⼤⽂件的需求⽽开发

的，可以运⾏于廉价的商⽤服务器上。

3.名称节点：负责管理分布式⽂件系统的命名空间，保存了两个核⼼的数据结构，即FsImage和EditLog

4.数据节点：是分布式⽂件系统HDFS的⼯作节点，负责数据的存储和读取，会根据客户端或者名称节点的调度来进⾏数据的存储和检

索，并且向名称节点定期发送⾃⼰所存储的块的列表。

5.第⼆名称节点：是HDFS架构的⼀个重要组成部分，具有两个⽅⾯的功能：⾸先，可以完成EditLog与FsImage的合并操作，减⼩

EditLog⽂件⼤⼩，缩短名称节点重启时间；其次，可以作为名称节点的“检查点”。

6.Zookeeper服务器：Zookeeper服务器并⾮⼀台单⼀的机器，可能是由多台机器构成的集群来提供稳定可靠的协同服务。Zookeeper

不仅能够帮助维护当前集群中机器的服务状态，⽽且能够帮助选出⼀个“总管”。让这个总管来

您可能关注的文档

文档评论（0）

. + 关注: 官方认证

文档贡献者

专注于职业教育考试，学历提升。

咨询Ta 进入空间

用户编号：8032132030000054

认证主体社旗县清显文具店

IP属地河南

统一社会信用代码/组织机构代码: 92411327MA45REK87Q

1亿VIP精品文档

更多 >

大数据采集与处理期末复习题 .pdfVIP