- 0
- 0
- 约8.04千字
- 约 14页
- 2026-01-24 发布于天津
- 举报
大数据技术基础专升本考前冲刺模拟试卷
考试时间:______分钟总分:______分姓名:______
一、单项选择题(下列每小题只有一个选项是正确的,请将正确选项的字母填在题后的括号内。每小题1分,共20分)
1.下列哪个不是大数据的“4V”特征?()
A.Volume(海量性)
B.Velocity(高速性)
C.Variety(多样性)
D.Veracity(精确性)
2.Hadoop生态系统中的NameNode通常运行在哪些类型的机器上?()
A.数据节点
B.备用NameNode
C.ResourceManager
D.边缘节点
3.在Hadoop的MapReduce模型中,将输入数据切分成逻辑记录的基本单位是?()
A.数据块(Block)
B.Key-Value对
C.Map任务
D.Shuffle操作
4.下列哪个组件是Hadoop生态系统中用于将关系型数据库数据导入HDFS的工具有?()
A.Flume
B.Sqoop
C.Hive
D.HBase
5.HBase是一个什么样的数据库?()
A.关系型数据库管理系统
B.键值存储数据库
C.文档型数据库
D.列式数据库
6.YARN的核心职责是?()
A.存储大数据文件
B.执行MapReduce任务
C.管理集群资源并调度应用程序
D.查询数据仓库
7.下列哪个技术组件是ApacheSpark的核心抽象,代表了不可变的、可分区、可并行操作的分布式数据集?()
A.RDD
B.DataFrame
C.Dataset
D.SparkSession
8.SparkSQL中的DataFrame可以被视为?()
A.分布式关系表
B.RDD的升级版
C.原始Java对象集合
D.磁盘上的文件系统
9.下列哪种情况最适合使用Hive进行大数据分析?()
A.需要极低延迟的数据查询
B.需要对结构化数据进行复杂的SQL查询
C.需要实时处理高速流入的数据
D.需要存储和查询非结构化文本数据
10.下列哪个组件是ApacheFlume的主要功能?()
A.在Hadoop集群上运行MapReduce作业
B.将大量数据从各种数据源实时收集并传输到HDFS或HBase等存储系统
C.对存储在HDFS上的数据进行SQL查询
D.管理Spark作业的资源调度
11.MapReduce模型中的“ShuffleandSort”阶段主要目的是什么?()
A.执行Map函数的计算
B.将Map任务输出的中间结果根据Key进行排序并分组,以便传递给Reduce任务
C.将输入数据从HDFS读取到内存
D.清理MapReduce作业产生的临时文件
12.HDFS设计的核心思想之一是?()
A.提供在线事务处理能力
B.支持高并发的小文件访问
C.实现高容错性和高吞吐量的数据存储
D.提供复杂的数据分析功能
13.以下哪个不是NoSQL数据库的主要特点?()
A.通常牺牲了关系模型的完整性
B.数据模型灵活,易于扩展
C.支持复杂的SQL查询
D.面向特定类型的数据模型
14.Spark中,为了提高后续操作的性能,可以对RDD调用哪个方法进行持久化?()
A.`map`
B.`collect`
C.`persist`或`saveAsTextFile`
D.`filter`
15.下列哪个工具通常用于在Hadoop集群上运行和管理Spark作业?()
A.HiveServer2
B.SparkSubmit
C.SqoopClient
D.FlumeAgent
16.大数据技术中的“3V”通常指的是?()
A.Volume,Velocity,Variety
B.Volume,Velocity,Veracity
C.Variety,Veracity,Value
D.Velocity,Volume,Value
17.YARN架构中
原创力文档

文档评论(0)