大数据专业考试试题及答案解析.pdfVIP

  • 1
  • 0
  • 约8.18千字
  • 约 16页
  • 2026-03-04 发布于河南
  • 举报

大数据专业考试试题及答案解析

(含答案及解析)

姓名:科室/部门/班级:得分:

题型单选多选题判断题填空题简答题案例分析题总分

得分

大数据专业考试试题及答案解析

一、单选题(共20分)

1.在大数据处理中,下列哪种技术主要用于对海量数据进行分布式存储?

A.SQL数据库

B.HadoopHDFS

C.MongoDB

D.Redis

2.下列关于数据清洗的描述中,正确的是?

A.数据清洗的主要目的是增加数据量

B.缺失值处理只能采用删除或填充两种方法

第1页共16

C.数据标准化和归一化属于数据清洗的范畴

D.数据清洗不需要考虑数据的一致性

3.大数据平台的3V特征不包括以下哪一项?

A.速度(Velocity)

B.容量(Volume)

C.变化(Variety)

D.可见性(Visibility)

4.下列哪种算法不属于聚类算法?

A.K-Means

B.决策树

C.DBSCAN

D.层次聚类

5.在数据挖掘中,关联规则挖掘的核心指标是?

A.准确率(Accuracy)

B.支持度(Support)

C.置信度(Confidence)

D.F1值

6.下列哪种模型适用于时间序列预测?

A.逻辑回归

B.神经网络

C.ARIMA模型

D.支持向量机

第2页共16

7.大数据安全中,数据加密的主要目的是?

A.提高数据传输速度

B.防止数据泄露

C.增加数据存储容量

D.简化数据访问流程

8.下列哪种工具不属于Spark生态系统?

A.Hive

B.HBase

C.Zeppelin

D.Flink

9.在分布式计算中,MapReduce模型的两个主要阶段是?

A.数据采集和结果输出

B.Map和Reduce

C.数据清洗和特征工程

D.数据存储和可视化

10.下列哪种指标用于评估分类模型的性能?

A.RMSE

B.MAE

C.AUC

D.CV

11.大数据平台中的数据湖(DataLake)与数据仓库(DataWarehouse)的主要

区别是?

第3页共16

A.数据湖存储结构化数据,数据仓库存储非结构化数据

B.数据湖适用于实时分析,数据仓库适用于批处理

C.数据湖没有模式,数据仓库有预定义模式

D.数据湖成本更高,数据仓库成本更低

12.下列哪种技术可用于数据脱敏?

A.数据压缩

B.数据加密

C.K-Means聚类

D.PCA降维

13.在大数据平台中,下列哪种组件负责数据调度和任务管理?

A.HDFS

B.YARN

C.SparkCore

D.HiveMetastore

14.下列哪种方法不属于特征工程?

A.特征选择

B.特征提取

C.数据清洗

D.模型训练

15.下列哪种算法适用于异常检测?

A.决策树

B.K-Means

第4页共16

C.孤立森林

D.逻辑回归

16.大数据平台中的“列式存储”技术主要优势是?

A.提高数据写入速度

B.优化查询性能

C.减少存储空间占用

D.增强数据安全性

17.下列哪种工具可用于数据可视化?

A.TensorFlow

B.Matplotlib

C.PyTo

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档