2026年国开电大大数据技术形考题库100道（巩固）.docxVIP

下载本文档

0
0
约2.4万字
约 39页
2026-03-10 发布于河南
举报

2026年国开电大大数据技术形考题库100道（巩固）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据预处理流程中，将不同来源的数据合并成一个统一数据集的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：B

解析：大数据预处理主要步骤包括：数据清洗（处理缺失值、异常值等）、数据集成（合并多源数据形成统一数据集）、数据转换（如归一化、标准化）、数据规约（减少数据规模或维度）。选项B“数据集成”正是多源数据合并的步骤，因此正确答案为B。

2、大数据的4V特征中，不包括以下哪一项？

A.Volume（规模）

B.Velocity（速度）

C.Veracity（真实性）

D.Variety（多样性）

【答案】：C

解析：本题考察大数据的4V特征知识点。大数据的标准4V特征为Volume（数据规模）、Velocity（处理速度）、Variety（数据多样性）、Value（数据价值）。选项C的Veracity（真实性）是大数据处理中需关注的数据质量维度，但不属于4V特征的核心定义，因此正确答案为C。

3、大数据的哪个特征强调数据产生和处理的速度快，例如实时性数据处理？

A.Volume（数据规模大）

B.Velocity（数据处理速度快）

C.Variety（数据类型多样）

D.Value（数据价值密度低）

【答案】：B

解析：本题考察大数据的5V特征知识点。选项A的Volume指数据规模庞大，不符合速度快的描述；选项C的Variety指数据类型多样（结构化、半结构化、非结构化），与速度无关；选项D的Value强调数据价值密度低，需通过挖掘提取价值，也不涉及速度；选项B的Velocity明确指数据产生和处理的速度快，符合题干中“实时性数据处理”的描述，因此正确答案为B。

4、某企业将大数据平台部署在独立的数据中心，仅内部使用，不对外开放服务，这种部署模式属于？

A.公有云部署

B.私有云部署

C.混合云部署

D.社区云部署

【答案】：B

解析：本题考察大数据平台部署模式知识点。私有云（B）是企业自建或第三方提供的封闭云平台，仅供内部使用；公有云（A）面向公众开放服务；混合云（C）结合公有云和私有云优势；社区云（D）由特定社区共享使用。因此B选项正确。

5、以下哪种数据库不属于大数据存储的典型技术？

A.HBase

B.MongoDB

C.MySQL

D.HDFS

【答案】：C

解析：本题考察大数据存储技术知识点。HBase（选项A）是基于HDFS的分布式NoSQL数据库，MongoDB（选项B）是文档型NoSQL数据库，均为大数据常用存储工具；HDFS（选项D）是Hadoop生态的分布式文件系统，用于存储海量数据。而MySQL（选项C）是传统关系型数据库，通常用于结构化数据的中小规模存储，不属于大数据典型存储技术。正确答案为C。

6、在大数据处理流程中，用于处理数据噪声、缺失值和重复数据的环节是？

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】：A

解析：本题考察大数据预处理环节知识点。数据清洗的核心目标是处理数据质量问题，包括去除噪声、填补缺失值、删除重复数据；数据集成是合并多源数据，数据转换是调整数据格式/类型，数据归约是减少数据规模。因此处理数据噪声和缺失值的环节是数据清洗，正确答案为A。

7、以下哪种数据挖掘算法常用于预测连续型变量的取值？

A.线性回归

B.决策树

C.Apriori算法

D.K-means聚类

【答案】：A

解析：本题考察数据挖掘算法应用场景知识点。线性回归是典型的预测连续型变量的算法（如预测房价、销售额等）；决策树可用于分类或回归，但更侧重于分类；Apriori算法用于关联规则挖掘（如购物篮分析）；K-means是无监督聚类算法，无法用于预测。故正确答案为A。

8、K-Means算法在数据挖掘中主要用于以下哪种任务？

A.分类（如垃圾邮件识别）

B.聚类（如用户分群）

C.回归（如预测销售额）

D.关联规则挖掘（如“啤酒与尿布”）

【答案】：B

解析：本题考察数据挖掘算法类型知识点。K-Means是经典的无监督学习聚类算法，通过计算数据点间距离将数据划分为K个簇（Clusters），用于用户分群、异常检测等场景。分类（A）需有监督学习（如决策树、SVM），回归（C）预测连续值（如线性回归），关联规则挖掘（D）（如Apriori算法）用于发现项集间关联关系，均与K-Means功能不同。

9、以下哪项是Hadoop生态系统中用于高吞吐率日志数据采集的工具？

A.Flume

B.Kafka

C.HDFS

D.MapReduce

【答案】：A

解析：本题考察Hadoop生态组件功能，Flume是Ha

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道（巩固）.docxVIP