- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
《云计算与大数据技术》习题及答案
一、云计算基础
(一)选择题
1.以下哪项属于云计算的核心特征?
A.本地硬件资源独占
B.按需自助服务
C.固定网络接入
D.单租户数据存储
答案:B
解析:云计算核心特征包括按需自助服务、泛在网络接入、资源池化、快速弹性伸缩、计量服务。其他选项均与云计算共享资源、多租户的特性相悖。
2.某企业需要将内部财务系统迁移至云端,要求完全控制底层基础设施,应选择哪种部署模式?
A.公有云
B.私有云
C.混合云
D.社区云
答案:B
解析:私有云由单一企业独占,可自主控制基础设施,适合对数据安全和资源控制权要求高的场景;公有云为多租户共享,混合云是公有与私有云的组合,社区云服务特定群体。
(二)简答题
1.简述IaaS、PaaS、SaaS三种服务模式的区别。
答案:
IaaS(基础设施即服务)提供底层IT基础设施,如服务器、存储、网络,用户需自行管理操作系统、中间件和应用程序(例:AWSEC2)。
PaaS(平台即服务)在IaaS基础上提供开发、测试、部署平台,用户聚焦应用开发,无需管理底层基础设施(例:Heroku)。
SaaS(软件即服务)直接提供完整应用,用户通过网络访问使用,无需维护任何基础设施(例:钉钉)。
核心区别在于用户管理的层级:IaaS管底层,PaaS管应用逻辑,SaaS无需管理。
2.虚拟化技术在云计算中的主要作用是什么?
答案:
虚拟化通过软件将物理资源抽象为逻辑资源,实现以下作用:
(1)资源池化:将分散的服务器、存储整合为资源池,提升利用率;
(2)弹性扩展:通过虚拟实例的快速创建/销毁实现资源按需分配;
(3)隔离性:虚拟实例间相互隔离,避免单点故障影响其他实例;
(4)成本优化:减少物理设备数量,降低硬件采购和维护成本。
二、大数据技术基础
(一)选择题
1.大数据的“5V”特征不包括以下哪项?
A.Volume(大量)
B.Velocity(高速)
C.Value(价值)
D.Variety(可变性)
答案:D
解析:大数据5V特征为Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)、Value(价值),“可变性”非标准特征。
2.以下哪种技术属于大数据存储层工具?
A.HadoopYARN
B.ApacheHBase
C.ApacheSpark
D.Flink
答案:B
解析:HBase是基于HDFS的分布式列式数据库,属于存储层;YARN是资源管理框架(管理层),Spark和Flink是计算框架(计算层)。
(二)计算题
某企业日志数据日均生成量为10TB(1TB=1024GB),采用HDFS存储,默认块大小为128MB,副本数为3。计算:
(1)单个日志文件需要划分多少个HDFS块?
(2)该日志数据在HDFS中的总存储量(单位:TB)。
答案:
(1)10TB=10×1024GB=10×1024×1024MB=10,485,760MB
块数=10,485,760MB÷128MB=81,920个
(2)总存储量=原始数据量×副本数=10TB×3=30TB
(三)简答题
1.简述HDFS的“一次写入,多次读取”设计原则及其原因。
答案:
“一次写入,多次读取”指文件创建后仅允许追加(append),不支持随机修改。原因包括:
(1)简化一致性管理:避免多客户端同时修改导致的数据不一致问题;
(2)提升读写性能:顺序读取比随机读写更高效,适合大数据批量处理场景;
(3)适配分布式存储:副本机制下,修改单个块需同步所有副本,成本过高;
(4)符合大数据应用场景:日志、传感器数据等多为追加写入,分析时需多次读取。
2.对比MapReduce与Spark在计算模型上的主要差异。
答案:
(1)数据存储:MapReduce基于磁盘(中间结果写盘),Spark基于内存(RDD可缓存至内存);
(2)计算模式:MapReduce是“分-总”两步式(Map→Shuffle→Reduce),Spark支持DAG(有向无环图)多阶段计算;
(3)适用场景:MapReduce适合离线批处理(如日志统计),Spark适合迭代计算(机器学习)、交互式查询;
(4)性能:Spark内存计算减少IO开销,速度通常比MapReduce快10-100倍;
(5)编程接口:Spark提供更丰富的API(如DataFrame、Dataset),MapReduce依赖Java编写Map
原创力文档


文档评论(0)