2026年国开电大大数据技术形考题库100道带答案(综合卷).docxVIP

  • 0
  • 0
  • 约2.49万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道带答案(综合卷).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce

C.YARN

D.Pig

【答案】:A

解析:本题考察Hadoop生态系统的核心组件功能,正确答案为A。HDFS(Hadoop分布式文件系统)是Hadoop的核心组件之一,专门用于在集群中分布式存储海量数据。B选项MapReduce是Hadoop的分布式计算框架,负责数据处理而非存储;C选项YARN是Hadoop的资源管理器,负责集群资源调度;D选项Pig是基于Hadoop的高级查询语言,用于数据处理而非存储。

2、在数据采集环节,用于将关系型数据库(如MySQL)中的数据批量导入到Hadoop集群的工具是?

A.Flume

B.Sqoop

C.Kafka

D.Hive

【答案】:B

解析:本题考察Hadoop生态系统中数据传输工具的功能。Sqoop(SQL-to-Hadoop)是专门用于在关系型数据库与Hadoop之间进行数据导入导出的工具,支持批量数据传输。A选项Flume主要用于日志数据采集,C选项Kafka是分布式消息队列,用于实时数据流传输,D选项Hive是数据仓库工具,用于数据查询和分析,因此正确答案为B。

3、以下哪种机器学习算法常用于将数据集中的样本自动分组为不同的类别,且无需预先知道类别标签?

A.线性回归(回归预测)

B.逻辑回归(分类预测)

C.K-Means聚类(无监督学习)

D.决策树分类(监督学习)

【答案】:C

解析:本题考察机器学习算法类型知识点。K-Means是典型的无监督学习算法,通过距离度量自动将数据划分为簇(类别),无需预先标注标签;线性回归和逻辑回归是监督学习中的回归/分类算法,决策树分类需基于有标签数据训练。因此正确答案为C。

4、某企业将大数据平台部署在独立的数据中心,仅内部使用,不对外开放服务,这种部署模式属于?

A.公有云部署

B.私有云部署

C.混合云部署

D.社区云部署

【答案】:B

解析:本题考察大数据平台部署模式知识点。私有云(B)是企业自建或第三方提供的封闭云平台,仅供内部使用;公有云(A)面向公众开放服务;混合云(C)结合公有云和私有云优势;社区云(D)由特定社区共享使用。因此B选项正确。

5、数据预处理中,处理缺失值、异常值和重复数据属于以下哪个步骤?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:数据清洗的核心任务是修正数据质量问题,包括处理缺失值、异常值、重复数据等;数据集成是合并多源数据,数据转换是标准化/归一化数据格式,数据规约是减少数据规模。因此正确答案为A。

6、大数据的核心特征通常包括“4V”,以下哪一项不属于大数据的“4V”特征?

A.Volume

B.Velocity

C.Variety

D.Visibility

【答案】:D

解析:本题考察大数据“4V”特征知识点。大数据的“4V”标准特征为:Volume(数据规模大)、Velocity(数据产生速度快)、Variety(数据类型多样)、Value(数据蕴含价值)。选项D的“Visibility”(可见性)并非大数据核心特征,属于干扰项。

7、关于大数据与云计算的关系,下列说法正确的是?

A.云计算是大数据处理的唯一技术支撑

B.大数据必须依赖云计算才能运行

C.云计算为大数据提供弹性扩展的计算和存储资源

D.大数据技术本身包含云计算平台

【答案】:C

解析:本题考察大数据与云计算的关系知识点。云计算通过提供弹性资源池(计算、存储)为大数据处理提供基础设施支持,是大数据的重要技术支撑之一,但非唯一(如本地集群也可处理);大数据技术独立于云计算,云计算平台是基础设施而非大数据技术的组成部分,因此答案为C。

8、数据预处理中,对数据进行去重、处理缺失值和异常值的步骤属于?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据清洗的核心是解决数据质量问题,包括去除重复数据、处理缺失值、异常值等;数据集成是合并多源数据,数据转换是格式/类型转换,数据规约是压缩数据规模,因此答案为A。

9、大数据的哪个特征体现了数据产生和处理的速度要求?

A.Volume(数据量)

B.Velocity(速度)

C.Variety(多样性)

D.Value(价值密度)

【答案】:B

解析:本题考察大数据的5V特征知识点。大数据的5V特征中,Velocity(速度)特指数据产生和处理的速度要求,例如实时流数

文档评论(0)

1亿VIP精品文档

相关文档