2026年国开电大大数据技术形考题库100道及参考答案(预热题).docxVIP

  • 0
  • 0
  • 约2.41万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道及参考答案(预热题).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的核心特征(4V)不包括以下哪一项?

A.数据量巨大(Volume)

B.数据类型单一(Uniformity)

C.处理速度快(Velocity)

D.数据价值密度低(Value)

【答案】:B

解析:本题考察大数据的4V特征知识点。大数据的核心特征为Volume(数据量巨大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(价值密度低)。选项B中“数据类型单一”不符合4V特征,属于错误表述;其他选项均为4V特征的正确描述。

2、在大数据处理流程中,“处理数据中的缺失值、异常值和重复记录”属于以下哪个环节?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:A

解析:数据清洗的主要任务是对原始数据进行净化,包括去除重复数据、处理缺失值、修正异常值等;数据集成是合并多个数据源;数据转换是格式标准化处理;数据归约是减少数据量。因此“处理缺失值、异常值”属于数据清洗环节,答案为A。

3、以下关于NoSQL数据库的描述,正确的是?

A.NoSQL数据库只能存储结构化数据

B.NoSQL数据库通常不严格遵循ACID事务特性

C.NoSQL数据库仅支持单机部署,无法分布式扩展

D.NoSQL数据库的查询语言与SQL完全相同

【答案】:B

解析:本题考察NoSQL数据库特性知识点。NoSQL(非关系型数据库)的特点:A错误,NoSQL支持非结构化(如文档、图片)、半结构化数据,而SQL主要处理结构化数据;B正确,NoSQL为提高扩展性,通常弱化ACID(如BASE理论),不严格遵循原子性、一致性等特性;C错误,NoSQL支持分布式部署(如MongoDB分片),可横向扩展;D错误,NoSQL查询语言多样(如MongoDB的BSON查询、Redis的键值对查询),与SQL语法不同。因此选B。

4、Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.ZooKeeper(分布式协调服务)

【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop生态中专门负责海量数据分布式存储的核心组件;MapReduce负责分布式计算,YARN负责资源管理,ZooKeeper提供分布式协调服务。因此正确答案为A。

5、以下哪一项不属于大数据的4V特征?

A.Volume

B.Velocity

C.Variety

D.Validity

【答案】:D

解析:大数据的4V特征指的是Volume(规模性)、Velocity(高速性)、Variety(多样性)、Value(价值性)。选项D的“Validity(有效性)”并非4V特征之一,因此答案为D。

6、HDFS默认情况下,为每个数据块存储的副本数量是?

A.1

B.2

C.3

D.4

【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS为保障数据可靠性和容错性,默认将每个数据块存储3个副本在不同节点,即使单个节点故障,数据仍可通过其他副本恢复;1个副本无容错能力,2个副本容错性较低,4个副本超出常规默认配置。因此正确答案为C。

7、Hadoop分布式文件系统(HDFS)的主要作用是?

A.负责大数据的并行计算任务调度

B.存储海量的结构化和非结构化数据

C.管理集群的资源分配与作业调度

D.提供机器学习算法的实现接口

【答案】:B

解析:本题考察Hadoop生态系统核心组件功能。HDFS是分布式存储系统,核心作用是存储海量数据。选项A(并行计算)属于MapReduce或Spark的功能;选项C(资源调度)是YARN的职责;选项D(机器学习接口)非HDFS设计目标,因此正确答案为B。

8、以下哪种算法属于无监督学习?

A.线性回归(有监督,预测连续值)

B.K-Means(无监督,聚类算法)

C.逻辑回归(有监督,分类算法)

D.决策树(有监督,分类/回归算法)

【答案】:B

解析:本题考察机器学习算法类型。无监督学习无需标签数据,K-Means通过数据特征自动分组(聚类);A、C、D均为有监督学习(需训练标签数据),线性回归用于预测连续值,逻辑回归和决策树用于分类任务,因此B选项正确。

9、在大数据处理流程中,“数据预处理”阶段的主要任务不包括以下哪项?

A.数据清洗

B.数据集成

C.数据挖掘

D.数据转换

【答案】:C

解析:本题考察大数据处理流程,正确答案为C。数据预处理包括数据清洗(处理缺失值

文档评论(0)

1亿VIP精品文档

相关文档