2026年国开电大大数据技术形考题库100道及答案参考.docxVIP

  • 0
  • 0
  • 约2.48万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道及答案参考.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据处理的预处理阶段,以下哪个操作主要用于处理数据中的缺失值和异常值?

A.数据清洗

B.数据集成

C.数据转换

D.数据可视化

【答案】:A

解析:本题考察数据预处理操作知识点。数据清洗是预处理的关键步骤,主要用于处理数据中的缺失值(如空值)、异常值(如离群点)、重复值等问题,确保数据质量。数据集成是合并多源数据,数据转换是对数据进行标准化、归一化等格式转换,数据可视化是结果展示,不属于预处理操作。

2、以下哪项属于数据挖掘的典型应用场景?

A.对原始数据进行去重清洗

B.通过聚类算法实现客户细分

C.从传感器实时采集数据

D.将数据转换为图表进行展示

【答案】:B

解析:本题考察数据挖掘的定义及应用。数据挖掘是从大量数据中通过算法发现潜在模式或知识的过程。B选项“通过聚类算法实现客户细分”属于数据挖掘(聚类分析)的典型应用,通过对客户特征数据分组,识别不同客户群体。A选项“数据清洗”属于数据预处理环节,C选项“数据采集”是数据获取阶段,D选项“数据可视化”是数据呈现手段,均不属于数据挖掘。因此正确答案为B。

3、Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的核心分布式文件存储系统,用于在集群中存储海量数据;MapReduce是分布式计算框架,YARN是资源管理器,Hive是数据仓库工具,均不负责文件存储。

4、Hadoop生态系统中负责分布式存储的核心组件是?

A.MapReduce

B.YARN

C.HDFS

D.Hive

【答案】:C

解析:本题考察Hadoop生态系统组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门负责海量数据的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询。因此正确答案为C。

5、数据预处理中处理缺失值、异常值及重复记录的环节属于哪个步骤?

A.数据集成(合并多源数据)

B.数据清洗(处理数据质量问题)

C.数据转换(格式/单位转换)

D.数据规约(降低数据规模)

【答案】:B

解析:本题考察数据预处理环节知识点。数据清洗是处理数据质量问题的核心步骤,包括缺失值填充、异常值处理、重复记录去重等;数据集成是合并多源数据,数据转换是调整数据格式/类型,数据规约是通过降维/采样减少数据量,均与“处理缺失值、异常值”无关。

6、以下哪种大数据处理框架适合处理实时流数据并提供低延迟计算?

A.HadoopMapReduce

B.SparkStreaming

C.Hive

D.Flume

【答案】:B

解析:本题考察大数据处理框架的特性知识点。选项A的HadoopMapReduce是批处理框架,适用于离线海量数据计算,延迟较高;选项B的SparkStreaming是基于Spark的实时流处理框架,支持毫秒级低延迟计算,适合实时数据场景;选项C的Hive是数据仓库工具,用于离线SQL查询;选项D的Flume是日志采集工具,非处理框架。因此正确答案为B。

7、下列哪种工具属于大数据可视化工具?

A.MySQL(关系型数据库管理系统)

B.ApacheHBase(分布式数据库)

C.Tableau(交互式可视化平台)

D.Pig(高级查询语言)

【答案】:C

解析:本题考察大数据工具类型。Tableau是专业的交互式数据可视化工具,用于生成图表、仪表盘等;A、B属于数据存储工具,D是Hadoop生态中的查询语言,因此正确答案为C。

8、在大数据数据预处理阶段,处理缺失值、异常值等数据质量问题的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据清洗主要用于处理数据中的缺失值、异常值、重复值等质量问题;数据集成是合并多源数据,数据转换是统一数据格式,数据归约是减少数据规模,均与处理缺失值无关,故正确答案为A。

9、下列哪项不属于数据预处理的基本步骤?

A.数据清洗(处理缺失值、异常值)

B.数据加密(数据安全措施)

C.数据集成(合并多源数据)

D.数据规约(降维、压缩数据)

【答案】:B

解析:本题考察数据预处理步骤知识点。数据预处理基本步骤包括数据清洗

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档