2026年国开电大大数据技术形考题库100道及参考答案【综合题】.docxVIP

  • 1
  • 0
  • 约2.4万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道及参考答案【综合题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、数据清洗是大数据预处理的重要步骤,其主要目的是?

A.去除数据中的噪声和错误值(如缺失值、异常值)

B.提高数据存储的压缩率

C.加速数据在网络中的传输速度

D.优化数据在数据库中的索引结构

【答案】:A

解析:本题考察数据预处理中数据清洗的知识点。数据清洗的核心是提升数据质量,通过处理缺失值、异常值、重复数据等“噪声和错误值”实现;B(压缩率)、C(传输速度)、D(索引结构优化)均不属于数据清洗的直接目的,因此正确选项A。

2、在大数据处理流程中,用于去除数据中的噪声和缺失值的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理步骤知识点。数据清洗是处理原始数据中的“脏数据”,核心任务是去除噪声、填补缺失值、修正错误数据;数据集成是合并多个数据源;数据转换是统一数据格式或标准化数据;数据规约是通过降维等方法减少数据规模。因此去除噪声和缺失值的步骤是数据清洗,正确答案为A。

3、大数据的5V特征中,描述数据产生和处理速度的是以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Veracity(真实性)

【答案】:B

解析:本题考察大数据的5V核心特征知识点。大数据的5V特征包括Volume(容量,数据规模)、Velocity(速度,数据产生和处理的速度)、Variety(多样性,数据类型复杂)、Veracity(真实性,数据准确性)、Value(价值,数据蕴含的价值)。选项A是容量特征,选项C是多样性特征,选项D是真实性特征,均不符合题意,因此正确答案为B。

4、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce

C.YARN

D.Pig

【答案】:A

解析:本题考察Hadoop生态系统的核心组件功能,正确答案为A。HDFS(Hadoop分布式文件系统)是Hadoop的核心组件之一,专门用于在集群中分布式存储海量数据。B选项MapReduce是Hadoop的分布式计算框架,负责数据处理而非存储;C选项YARN是Hadoop的资源管理器,负责集群资源调度;D选项Pig是基于Hadoop的高级查询语言,用于数据处理而非存储。

5、以下哪项属于大数据在交通领域的典型应用?

A.电商平台智能推荐系统

B.城市交通流量实时预测与信号灯优化

C.基因测序数据的生物特征分析

D.社交媒体用户情感倾向识别

【答案】:B

解析:本题考察大数据的行业应用场景。选项B中“城市交通流量预测与信号灯优化”直接利用交通数据(Volume、Velocity等)实现实时决策,属于交通领域典型应用;A、D属于电商/社交领域,C属于生物医疗领域,因此正确答案为B。

6、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统中,HDFS(HadoopDistributedFileSystem)是分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的核心组件是HDFS,正确答案为B。

7、以下哪种算法属于数据挖掘中的分类算法?

A.K-Means

B.Apriori

C.决策树

D.PCA

【答案】:C

解析:本题考察数据挖掘算法类型。决策树是典型的分类算法,通过构建树状模型对数据进行分类预测;K-Means是无监督学习的聚类算法;Apriori用于挖掘关联规则(如购物篮分析);PCA(主成分分析)是降维算法。因此正确答案为C。

8、某企业将大数据平台部署在独立的数据中心,仅内部使用,不对外开放服务,这种部署模式属于?

A.公有云部署

B.私有云部署

C.混合云部署

D.社区云部署

【答案】:B

解析:本题考察大数据平台部署模式知识点。私有云(B)是企业自建或第三方提供的封闭云平台,仅供内部使用;公有云(A)面向公众开放服务;混合云(C)结合公有云和私有云优势;社区云(D)由特定社区共享使用。因此B选项正确。

9、数据预处理阶段中,用于处理数据缺失值、异常值和重复数据的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据清洗的核心作用是处理数据中的质量问题,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档