《云计算与大数据技术》习题及答案.docxVIP

《云计算与大数据技术》习题及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

《云计算与大数据技术》习题及答案

一、云计算基础

(一)选择题

1.以下哪项属于云计算的核心特征?

A.本地硬件资源独占

B.按需自助服务

C.固定网络接入

D.单租户数据存储

答案:B

解析:云计算核心特征包括按需自助服务、泛在网络接入、资源池化、快速弹性伸缩、计量服务。其他选项均与云计算共享资源、多租户的特性相悖。

2.某企业需要将内部财务系统迁移至云端,要求完全控制底层基础设施,应选择哪种部署模式?

A.公有云

B.私有云

C.混合云

D.社区云

答案:B

解析:私有云由单一企业独占,可自主控制基础设施,适合对数据安全和资源控制权要求高的场景;公有云为多租户共享,混合云是公有与私有云的组合,社区云服务特定群体。

(二)简答题

1.简述IaaS、PaaS、SaaS三种服务模式的区别。

答案:

IaaS(基础设施即服务)提供底层IT基础设施,如服务器、存储、网络,用户需自行管理操作系统、中间件和应用程序(例:AWSEC2)。

PaaS(平台即服务)在IaaS基础上提供开发、测试、部署平台,用户聚焦应用开发,无需管理底层基础设施(例:Heroku)。

SaaS(软件即服务)直接提供完整应用,用户通过网络访问使用,无需维护任何基础设施(例:钉钉)。

核心区别在于用户管理的层级:IaaS管底层,PaaS管应用逻辑,SaaS无需管理。

2.虚拟化技术在云计算中的主要作用是什么?

答案:

虚拟化通过软件将物理资源抽象为逻辑资源,实现以下作用:

(1)资源池化:将分散的服务器、存储整合为资源池,提升利用率;

(2)弹性扩展:通过虚拟实例的快速创建/销毁实现资源按需分配;

(3)隔离性:虚拟实例间相互隔离,避免单点故障影响其他实例;

(4)成本优化:减少物理设备数量,降低硬件采购和维护成本。

二、大数据技术基础

(一)选择题

1.大数据的“5V”特征不包括以下哪项?

A.Volume(大量)

B.Velocity(高速)

C.Value(价值)

D.Variety(可变性)

答案:D

解析:大数据5V特征为Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)、Value(价值),“可变性”非标准特征。

2.以下哪种技术属于大数据存储层工具?

A.HadoopYARN

B.ApacheHBase

C.ApacheSpark

D.Flink

答案:B

解析:HBase是基于HDFS的分布式列式数据库,属于存储层;YARN是资源管理框架(管理层),Spark和Flink是计算框架(计算层)。

(二)计算题

某企业日志数据日均生成量为10TB(1TB=1024GB),采用HDFS存储,默认块大小为128MB,副本数为3。计算:

(1)单个日志文件需要划分多少个HDFS块?

(2)该日志数据在HDFS中的总存储量(单位:TB)。

答案:

(1)10TB=10×1024GB=10×1024×1024MB=10,485,760MB

块数=10,485,760MB÷128MB=81,920个

(2)总存储量=原始数据量×副本数=10TB×3=30TB

(三)简答题

1.简述HDFS的“一次写入,多次读取”设计原则及其原因。

答案:

“一次写入,多次读取”指文件创建后仅允许追加(append),不支持随机修改。原因包括:

(1)简化一致性管理:避免多客户端同时修改导致的数据不一致问题;

(2)提升读写性能:顺序读取比随机读写更高效,适合大数据批量处理场景;

(3)适配分布式存储:副本机制下,修改单个块需同步所有副本,成本过高;

(4)符合大数据应用场景:日志、传感器数据等多为追加写入,分析时需多次读取。

2.对比MapReduce与Spark在计算模型上的主要差异。

答案:

(1)数据存储:MapReduce基于磁盘(中间结果写盘),Spark基于内存(RDD可缓存至内存);

(2)计算模式:MapReduce是“分-总”两步式(Map→Shuffle→Reduce),Spark支持DAG(有向无环图)多阶段计算;

(3)适用场景:MapReduce适合离线批处理(如日志统计),Spark适合迭代计算(机器学习)、交互式查询;

(4)性能:Spark内存计算减少IO开销,速度通常比MapReduce快10-100倍;

(5)编程接口:Spark提供更丰富的API(如DataFrame、Dataset),MapReduce依赖Java编写Map

文档评论(0)

小小何 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档