2026年国开电大大数据技术形考题库100道(巩固).docxVIP

  • 0
  • 0
  • 约2.4万字
  • 约 39页
  • 2026-03-10 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道(巩固).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据预处理流程中,将不同来源的数据合并成一个统一数据集的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:B

解析:大数据预处理主要步骤包括:数据清洗(处理缺失值、异常值等)、数据集成(合并多源数据形成统一数据集)、数据转换(如归一化、标准化)、数据规约(减少数据规模或维度)。选项B“数据集成”正是多源数据合并的步骤,因此正确答案为B。

2、大数据的4V特征中,不包括以下哪一项?

A.Volume(规模)

B.Velocity(速度)

C.Veracity(真实性)

D.Variety(多样性)

【答案】:C

解析:本题考察大数据的4V特征知识点。大数据的标准4V特征为Volume(数据规模)、Velocity(处理速度)、Variety(数据多样性)、Value(数据价值)。选项C的Veracity(真实性)是大数据处理中需关注的数据质量维度,但不属于4V特征的核心定义,因此正确答案为C。

3、大数据的哪个特征强调数据产生和处理的速度快,例如实时性数据处理?

A.Volume(数据规模大)

B.Velocity(数据处理速度快)

C.Variety(数据类型多样)

D.Value(数据价值密度低)

【答案】:B

解析:本题考察大数据的5V特征知识点。选项A的Volume指数据规模庞大,不符合速度快的描述;选项C的Variety指数据类型多样(结构化、半结构化、非结构化),与速度无关;选项D的Value强调数据价值密度低,需通过挖掘提取价值,也不涉及速度;选项B的Velocity明确指数据产生和处理的速度快,符合题干中“实时性数据处理”的描述,因此正确答案为B。

4、某企业将大数据平台部署在独立的数据中心,仅内部使用,不对外开放服务,这种部署模式属于?

A.公有云部署

B.私有云部署

C.混合云部署

D.社区云部署

【答案】:B

解析:本题考察大数据平台部署模式知识点。私有云(B)是企业自建或第三方提供的封闭云平台,仅供内部使用;公有云(A)面向公众开放服务;混合云(C)结合公有云和私有云优势;社区云(D)由特定社区共享使用。因此B选项正确。

5、以下哪种数据库不属于大数据存储的典型技术?

A.HBase

B.MongoDB

C.MySQL

D.HDFS

【答案】:C

解析:本题考察大数据存储技术知识点。HBase(选项A)是基于HDFS的分布式NoSQL数据库,MongoDB(选项B)是文档型NoSQL数据库,均为大数据常用存储工具;HDFS(选项D)是Hadoop生态的分布式文件系统,用于存储海量数据。而MySQL(选项C)是传统关系型数据库,通常用于结构化数据的中小规模存储,不属于大数据典型存储技术。正确答案为C。

6、在大数据处理流程中,用于处理数据噪声、缺失值和重复数据的环节是?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:A

解析:本题考察大数据预处理环节知识点。数据清洗的核心目标是处理数据质量问题,包括去除噪声、填补缺失值、删除重复数据;数据集成是合并多源数据,数据转换是调整数据格式/类型,数据归约是减少数据规模。因此处理数据噪声和缺失值的环节是数据清洗,正确答案为A。

7、以下哪种数据挖掘算法常用于预测连续型变量的取值?

A.线性回归

B.决策树

C.Apriori算法

D.K-means聚类

【答案】:A

解析:本题考察数据挖掘算法应用场景知识点。线性回归是典型的预测连续型变量的算法(如预测房价、销售额等);决策树可用于分类或回归,但更侧重于分类;Apriori算法用于关联规则挖掘(如购物篮分析);K-means是无监督聚类算法,无法用于预测。故正确答案为A。

8、K-Means算法在数据挖掘中主要用于以下哪种任务?

A.分类(如垃圾邮件识别)

B.聚类(如用户分群)

C.回归(如预测销售额)

D.关联规则挖掘(如“啤酒与尿布”)

【答案】:B

解析:本题考察数据挖掘算法类型知识点。K-Means是经典的无监督学习聚类算法,通过计算数据点间距离将数据划分为K个簇(Clusters),用于用户分群、异常检测等场景。分类(A)需有监督学习(如决策树、SVM),回归(C)预测连续值(如线性回归),关联规则挖掘(D)(如Apriori算法)用于发现项集间关联关系,均与K-Means功能不同。

9、以下哪项是Hadoop生态系统中用于高吞吐率日志数据采集的工具?

A.Flume

B.Kafka

C.HDFS

D.MapReduce

【答案】:A

解析:本题考察Hadoop生态组件功能,Flume是Ha

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档