大数据课程期末考试复习题及答案.docxVIP

下载本文档

18
0
约4.25千字
约 16页
2023-12-31 发布于江苏
举报
版权申诉

大数据课程期末考试复习题及答案.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据课程期末考试复习题及答案

1.有一批海量数据，需要实现复杂计算分析，此时建议使用下面哪个计算引

擎?

MapReduce

Spark(正确答案)

YARN

HDFS

2.有一批海量数据，后期主要侧重于快速的读写，有修改需求，此时建议存

储到哪个存储系统中?

HDFS

HBase(正确答案)

MySQL

Redis

3.在shell命令行中向HDFS上传文件，需要使用哪个命令?

upload

set

insert

put(正确答案)

4.针对HDFS中NameNode的职责描述，错误的是：

NameNode是整个文件系统的管理节点

NameNode中负责维护File与Blocklist的关系

NameNode中负责存储文件数据(正确答案)

NameNode负责接收用户读写请求

5.3个5M的文件和1个130M的文件，在HDFS中会产生多少个Block块?

5(正确答案)

6.HDFS中的哪个进程是负责定期将edits文件中的内容合并到fsimage中

的?

NameNode

DataNode

SecondaryNameNode(正确答案)

NodeManager

7.Hive中的数据存储在哪里?

HBase

HDFS(正确答案)

本地磁盘

MapReduce

8.Kafka的消费者设置哪种策略可以实现消费最新的数据?

before

earliest

latest(正确答案)

after

9.针对HDFS中的小文件问题，可以使用下面哪种解决方案?

Sequencefile(正确答案)

NlineFile

TextFile

DBFile

10.MapReduce中，哪个步骤默认是可选的?

排序

分组

规约(正确答案)

分区

11.MapReduce编程的时候，针对字符串需要使用哪种数据类型?

String

Text(正确答案)

TextWritable

StringWritable

12.在Hadoop2.x中，一个Block块的大小默认是：

64M

100M

128M(正确答案)

256M

13.Kafka中生产数据时，希望Leader节点回复收到消息才确认接收成功，

此时需要设置ack的值为?

1(正确答案)

14.在Hive中，想要实现全局排序需要使用?

SORTBY

ORDERBY(正确答案)

CLUSTERBY

DISTRIBUTEBY

15.Hive中创建外部表，需要使用关键字：

create

external(正确答案)

partition

location

16.Hive中哪种类型的表适合做数据抽样?

内部表

外部表

分区表

桶表(正确答案)

17.针对MapReduce程序数据倾斜优化的手段，错误的是：

增加Reduce任务个数

把倾斜的key打散

针对join操作，如果有一个小表，可以考虑实现map端join

增加Reduce阶段的内存(正确答案)

18.YARN中的哪种调度器可以实现多队列且队列内部任务先进先出?

FIF0Scheduler

CapacityScheduler(正确答案)

FairScheduler

QueueScheduler

19.针对Spark中RDD的描述，错误的是：

RDD数据只能存放在内存中(正确答案)

RDD在抽象上来说是一种元素数据的集合，它是被分区的

RDD提供的有容错性，可以自动从节点失败中恢复过来

RDD可以通过集合或者文件来创建

20.下面哪个算子可以解决SparkRDD中数据倾斜的问题?

reduceByKey

mapPartitions

groupByKey

repartition(正确答案)

21.针对Hive的描述，错误的是：

Hive的数据存储在HDFS中

Hive不支持数据更新

Hive底层执行引擎可以使用Tez

Hive的数据格式是由操作系统决定的(正确答案)

22.HDFS中的Federation机制无法解决哪个问题?

保证HDFS的高可用(正确答案)

提高HDFS集群的读写吞吐率

实现良好的隔离性

提高HDFS集群的扩展性

23.Spark这种架构不适合应用在下面哪个场景中?

低延时的海量数据计算需求

低延时SQL交互查询需求

准实时(秒级)海量数据计算需求

海量离线数的分布式存储(正确答案)

24.Spark中执行下面哪个算法不会真正执行任务?

reduceByKey(正确答案)

countBy

您可能关注的文档

汽车零件销售管理系统—计算机毕业设计(论文).docx

文档评论（0）

178****8896 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据课程期末考试复习题及答案.docxVIP