- 1
- 0
- 约6.26千字
- 约 10页
- 2026-03-14 发布于北京
- 举报
大数据题库试卷及答案
考试时间:______分钟总分:______分姓名:______
1.下列哪项不属于大数据的4V特征?
A.Volume
B.Velocity
C.Value
D.Variety
2.Hadoop生态系统中的核心组件不包括?
A.HDFS
B.MapReduce
C.Yarn
D.MySQL
3.Spark中RDD的全称是?
A.RelationalDataDistribution
B.ResilientDistributedDataset
C.Real-timeDataProcessing
D.RemoteDataStorage
4.HBase是基于哪种数据模型的数据库?
A.关系型
B.列式
C.键值对
D.文档型
5.Kafka主要用于?
A.实时数据流处理
B.批量数据存储
C.消息队列
D.数据可视化
6.下列哪项是MapReduce的默认输入格式?
A.TextInputFormat
B.SequenceFileInputFormat
C.KeyValueTextInputFormat
D.DBInputFormat
7.Spark中,用于转换操作的方法是?
A.collect()
B.map()
C.count()
D.saveAsTextFile()
8.HDFS中,DataNode负责?
A.管理文件系统元数据
B.存储实际数据块
C.资源调度
D.任务执行
9.Hive是基于哪个引擎的SQL查询工具?
A.Spark
B.MapReduce
C.Tez
D.Flink
10.下列哪项属于实时计算框架?
A.Hadoop
B.Spark
C.Flink
D.Hive
11.ZooKeeper在Hadoop中的作用是?
A.存储数据
B.分布式协调服务
C.计算任务调度
D.数据清洗
12.Spark中,DataFrame比RDD的优势是?
A.更高的性能
B.更强的类型安全
C.更简单的API
D.更大的存储容量
13.HBase中,行键的设计原则不包括?
A.唯一性
B.长度适中
C.散列分布
D.自增序列
14.Kafka中,分区的作用是?
A.提高数据一致性
B.实现并行处理
C.减少存储空间
D.加快查询速度
15.下列哪项是大数据与传统数据的区别?
A.数据量小
B.处理速度快
C.结构化数据为主
D.价值密度高
16.SparkStreaming的微批处理模式基于?
A.RDD
B.DataFrame
C.DStream
D.Dataset
17.Hadoop中,Yarn负责?
A.存储数据
B.资源管理与任务调度
C.数据清洗
D.用户交互
18.下列哪项是数据仓库工具?
A.HBase
B.Kafka
C.Hive
D.Flink
19.Spark中,cache()方法的作用是?
A.持久化数据到内存
B.释放内存
C.清除缓存
D.保存到磁盘
20.大数据在金融领域的典型应用是?
A.用户画像
B.风控模型
C.实时推荐
D.日志分析
填空题(每题2分,共20分)
1.MapReduce中,______阶段负责将Map输出按Key排序。
2.Spark中,______用于定义数据集的转换操作。
3.HDFS中,NameNode负责管理______。
4.Hive是基于
原创力文档

文档评论(0)