- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
4
大数据课程期末考试复习题及答案
1.有一批海量数据,需要实现复杂计算分析,此时建议使用下面哪个计算引
擎?
MapReduce
Spark(正确答案)
YARN
HDFS
2.有一批海量数据,后期主要侧重于快速的读写,有修改需求,此时建议存
储到哪个存储系统中?
HDFS
HBase(正确答案)
MySQL
Redis
3.在shell命令行中向HDFS上传文件,需要使用哪个命令?
upload
set
insert
put(正确答案)
4.针对HDFS中NameNode的职责描述,错误的是:
NameNode是整个文件系统的管理节点
NameNode中负责维护File与Blocklist的关系
NameNode中负责存储文件数据(正确答案)
NameNode负责接收用户读写请求
5.3个5M的文件和1个130M的文件,在HDFS中会产生多少个Block块?
3
5(正确答案)
6
6.HDFS中的哪个进程是负责定期将edits文件中的内容合并到fsimage中
的?
NameNode
DataNode
SecondaryNameNode(正确答案)
NodeManager
7.Hive中的数据存储在哪里?
HBase
HDFS(正确答案)
本地磁盘
MapReduce
8.Kafka的消费者设置哪种策略可以实现消费最新的数据?
before
earliest
latest(正确答案)
after
9.针对HDFS中的小文件问题,可以使用下面哪种解决方案?
Sequencefile(正确答案)
NlineFile
TextFile
DBFile
10.MapReduce中,哪个步骤默认是可选的?
排序
分组
规约(正确答案)
分区
11.MapReduce编程的时候,针对字符串需要使用哪种数据类型?
String
Text(正确答案)
TextWritable
StringWritable
12.在Hadoop2.x中,一个Block块的大小默认是:
64M
100M
128M(正确答案)
256M
13.Kafka中生产数据时,希望Leader节点回复收到消息才确认接收成功,
此时需要设置ack的值为?
0
1(正确答案)
2
3
14.在Hive中,想要实现全局排序需要使用?
SORTBY
ORDERBY(正确答案)
CLUSTERBY
DISTRIBUTEBY
15.Hive中创建外部表,需要使用关键字:
create
external(正确答案)
partition
location
16.Hive中哪种类型的表适合做数据抽样?
内部表
外部表
分区表
桶表(正确答案)
17.针对MapReduce程序数据倾斜优化的手段,错误的是:
增加Reduce任务个数
把倾斜的key打散
针对join操作,如果有一个小表,可以考虑实现map端join
增加Reduce阶段的内存(正确答案)
18.YARN中的哪种调度器可以实现多队列且队列内部任务先进先出?
FIF0Scheduler
CapacityScheduler(正确答案)
FairScheduler
QueueScheduler
19.针对Spark中RDD的描述,错误的是:
RDD数据只能存放在内存中(正确答案)
RDD在抽象上来说是一种元素数据的集合,它是被分区的
RDD提供的有容错性,可以自动从节点失败中恢复过来
RDD可以通过集合或者文件来创建
20.下面哪个算子可以解决SparkRDD中数据倾斜的问题?
reduceByKey
mapPartitions
groupByKey
repartition(正确答案)
21.针对Hive的描述,错误的是:
Hive的数据存储在HDFS中
Hive不支持数据更新
Hive底层执行引擎可以使用Tez
Hive的数据格式是由操作系统决定的(正确答案)
22.HDFS中的Federation机制无法解决哪个问题?
保证HDFS的高可用(正确答案)
提高HDFS集群的读写吞吐率
实现良好的隔离性
提高HDFS集群的扩展性
23.Spark这种架构不适合应用在下面哪个场景中?
低延时的海量数据计算需求
低延时SQL交互查询需求
准实时(秒级)海量数据计算需求
海量离线数的分布式存储(正确答案)
24.Spark中执行下面哪个算法不会真正执行任务?
reduceByKey(正确答案)
countBy
最近下载
- 2025年钢结构出口包装标准.pdf VIP
- 安全生产责任体系重点岗位履职清单.doc VIP
- 办公楼消防改造工程方案(3篇).docx VIP
- MES项目解决方案(49页PPT).pptx VIP
- 国家管网集团作业许可安全管理细则相关知识试卷.doc
- 2023-2024学年高中政治统编版必修一4-2 实现中华民族伟大复兴的中国梦 课件(34张).pptx VIP
- 国家电网公司安全事故调查规程.pdf VIP
- 统编版(2024)-平平安安回家来教学设计小学一年级上册道德与法治.pdf VIP
- 2023年香港亚洲国际数学奥林匹克公开赛(AIMO)竞赛初赛数学试卷.doc VIP
- 实例要素式强制执行申请书(申请执行用).pdf VIP
文档评论(0)