2026年国开电大大数据技术形考题库100道及参考答案【综合题】.docxVIP

下载本文档

1
0
约2.4万字
约 38页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道及参考答案【综合题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、数据清洗是大数据预处理的重要步骤，其主要目的是？

A.去除数据中的噪声和错误值（如缺失值、异常值）

B.提高数据存储的压缩率

C.加速数据在网络中的传输速度

D.优化数据在数据库中的索引结构

【答案】：A

解析：本题考察数据预处理中数据清洗的知识点。数据清洗的核心是提升数据质量，通过处理缺失值、异常值、重复数据等“噪声和错误值”实现；B（压缩率）、C（传输速度）、D（索引结构优化）均不属于数据清洗的直接目的，因此正确选项A。

2、在大数据处理流程中，用于去除数据中的噪声和缺失值的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据预处理步骤知识点。数据清洗是处理原始数据中的“脏数据”，核心任务是去除噪声、填补缺失值、修正错误数据；数据集成是合并多个数据源；数据转换是统一数据格式或标准化数据；数据规约是通过降维等方法减少数据规模。因此去除噪声和缺失值的步骤是数据清洗，正确答案为A。

3、大数据的5V特征中，描述数据产生和处理速度的是以下哪一项？

A.Volume（容量）

B.Velocity（速度）

C.Variety（多样性）

D.Veracity（真实性）

【答案】：B

解析：本题考察大数据的5V核心特征知识点。大数据的5V特征包括Volume（容量，数据规模）、Velocity（速度，数据产生和处理的速度）、Variety（多样性，数据类型复杂）、Veracity（真实性，数据准确性）、Value（价值，数据蕴含的价值）。选项A是容量特征，选项C是多样性特征，选项D是真实性特征，均不符合题意，因此正确答案为B。

4、在Hadoop生态系统中，负责分布式存储海量数据的核心组件是？

A.HDFS（HadoopDistributedFileSystem）

B.MapReduce

C.YARN

D.Pig

【答案】：A

解析：本题考察Hadoop生态系统的核心组件功能，正确答案为A。HDFS（Hadoop分布式文件系统）是Hadoop的核心组件之一，专门用于在集群中分布式存储海量数据。B选项MapReduce是Hadoop的分布式计算框架，负责数据处理而非存储；C选项YARN是Hadoop的资源管理器，负责集群资源调度；D选项Pig是基于Hadoop的高级查询语言，用于数据处理而非存储。

5、以下哪项属于大数据在交通领域的典型应用？

A.电商平台智能推荐系统

B.城市交通流量实时预测与信号灯优化

C.基因测序数据的生物特征分析

D.社交媒体用户情感倾向识别

【答案】：B

解析：本题考察大数据的行业应用场景。选项B中“城市交通流量预测与信号灯优化”直接利用交通数据（Volume、Velocity等）实现实时决策，属于交通领域典型应用；A、D属于电商/社交领域，C属于生物医疗领域，因此正确答案为B。

6、在Hadoop生态系统中，负责分布式存储的核心组件是？

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】：B

解析：本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统中，HDFS（HadoopDistributedFileSystem）是分布式文件系统，负责大数据的分布式存储；MapReduce是分布式计算框架，YARN是资源管理器，Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的核心组件是HDFS，正确答案为B。

7、以下哪种算法属于数据挖掘中的分类算法？

A.K-Means

B.Apriori

C.决策树

D.PCA

【答案】：C

解析：本题考察数据挖掘算法类型。决策树是典型的分类算法，通过构建树状模型对数据进行分类预测；K-Means是无监督学习的聚类算法；Apriori用于挖掘关联规则（如购物篮分析）；PCA（主成分分析）是降维算法。因此正确答案为C。

8、某企业将大数据平台部署在独立的数据中心，仅内部使用，不对外开放服务，这种部署模式属于？

A.公有云部署

B.私有云部署

C.混合云部署

D.社区云部署

【答案】：B

解析：本题考察大数据平台部署模式知识点。私有云（B）是企业自建或第三方提供的封闭云平台，仅供内部使用；公有云（A）面向公众开放服务；混合云（C）结合公有云和私有云优势；社区云（D）由特定社区共享使用。因此B选项正确。

9、数据预处理阶段中，用于处理数据缺失值、异常值和重复数据的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察数据预处理步骤知识点。数据清洗的核心作用是处理数据中的质量问题，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道及参考答案【综合题】.docxVIP