2026年国开电大大数据技术形考题库100道含答案【新】.docxVIP

  • 0
  • 0
  • 约2.47万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道含答案【新】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、数据预处理过程中,以下哪一步骤主要用于处理数据中的缺失值、异常值和重复记录?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:A

解析:本题考察数据预处理的核心步骤知识点。数据清洗是数据预处理的关键环节,主要任务包括处理缺失值(如填充或删除)、异常值(识别并修正)和重复记录(去重);数据集成是合并多源数据;数据转换是将数据转换为适合分析的格式(如标准化、归一化);数据归约是通过降维或特征选择减少数据规模。选项B、C、D均非处理缺失值、异常值的步骤,因此正确答案为A。

2、以下关于NoSQL数据库的描述,正确的是?

A.NoSQL数据库只能存储结构化数据

B.NoSQL数据库通常不严格遵循ACID事务特性

C.NoSQL数据库仅支持单机部署,无法分布式扩展

D.NoSQL数据库的查询语言与SQL完全相同

【答案】:B

解析:本题考察NoSQL数据库特性知识点。NoSQL(非关系型数据库)的特点:A错误,NoSQL支持非结构化(如文档、图片)、半结构化数据,而SQL主要处理结构化数据;B正确,NoSQL为提高扩展性,通常弱化ACID(如BASE理论),不严格遵循原子性、一致性等特性;C错误,NoSQL支持分布式部署(如MongoDB分片),可横向扩展;D错误,NoSQL查询语言多样(如MongoDB的BSON查询、Redis的键值对查询),与SQL语法不同。因此选B。

3、数据预处理的典型步骤中,不包括以下哪项?

A.数据清洗(处理缺失值、异常值)

B.数据集成(合并多源数据)

C.数据转换(格式转换、标准化)

D.数据压缩(减少数据存储空间)

【答案】:D

解析:本题考察数据预处理知识点。数据预处理是大数据分析前的关键步骤,包括数据清洗(A选项,处理数据质量问题)、数据集成(B选项,合并多源数据)、数据转换(C选项,调整数据格式或标准化);而数据压缩(D选项)主要用于数据存储优化,不属于预处理的典型步骤(预处理更关注数据质量与可用性,而非存储压缩)。因此正确答案为D。

4、下列哪项是大数据的特征之一,指数据产生和处理的速度极快?

A.Volume(数据量巨大)

B.Velocity(数据产生与处理速度快)

C.Variety(数据类型多样)

D.Value(数据价值密度高)

【答案】:B

解析:本题考察大数据的5V特征。A选项Volume指数据规模庞大,强调数据总量;B选项Velocity特指数据产生和处理的速度极快,符合题干描述;C选项Variety指数据类型多样(结构化、半结构化、非结构化);D选项Value指数据价值密度低(海量数据中有效信息占比小)。因此正确答案为B。

5、大数据的经典‘4V’特征不包括以下哪一项?

A.Veracity(真实性)

B.Volume(数据量)

C.Velocity(处理速度)

D.Variety(数据多样性)

【答案】:A

解析:本题考察大数据的‘4V’核心特征知识点。大数据的经典‘4V’特征明确为:Volume(数据量巨大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(低价值密度但蕴含价值)。选项A的‘Veracity’(真实性)属于数据质量维度的概念,并非大数据‘4V’特征的核心组成部分,因此正确答案为A。

6、Hadoop分布式文件系统(HDFS)的主要作用是?

A.负责大数据的并行计算任务调度

B.存储海量的结构化和非结构化数据

C.管理集群的资源分配与作业调度

D.提供机器学习算法的实现接口

【答案】:B

解析:本题考察Hadoop生态系统核心组件功能。HDFS是分布式存储系统,核心作用是存储海量数据。选项A(并行计算)属于MapReduce或Spark的功能;选项C(资源调度)是YARN的职责;选项D(机器学习接口)非HDFS设计目标,因此正确答案为B。

7、在大数据处理流程中,以下哪个步骤主要用于处理数据中的缺失值、异常值和重复值?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理步骤知识点。数据清洗的核心任务是处理数据质量问题,包括缺失值填充、异常值修正、重复值删除等;数据集成是合并多源数据,数据转换是调整数据格式,数据规约是降低数据规模。因此正确答案为A。

8、以下哪项是Python中用于大数据可视化的库?

A.Tableau

B.PowerBI

C.Matplotlib

D.Hadoop

【答案】:C

解析:本题考察大数据可视化工具知识点。Matplotlib(选项C)是Python的基础可视化库,可用于绘制折线图、

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档