2026年国开电大大数据技术概论形考题库100道（夺冠）.docxVIP

下载本文档

1
0
约2.54万字
约 39页
2026-03-09 发布于山东
举报

2026年国开电大大数据技术概论形考题库100道（夺冠）.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、大数据分析的典型流程中，以下哪项不属于核心步骤？

A.数据采集与预处理

B.数据存储与计算

C.数据加密与隐私保护

D.数据挖掘与结果可视化

【答案】：C

解析：本题考察大数据分析流程知识点。大数据分析核心步骤通常包括数据采集（获取原始数据）、预处理（清洗、转换）、存储与计算（如分布式计算框架处理）、数据挖掘（提取价值）、结果可视化（展示分析结论）。“数据加密与隐私保护”属于数据安全范畴，是数据处理前的可选环节，而非分析流程的核心步骤，因此正确答案为C。

2、大数据在以下哪个领域的应用体现了个性化推荐的典型场景？

A.电商平台商品推荐系统

B.传统银行网点排队叫号系统

C.纸质文件档案管理系统

D.交通信号灯固定配时系统

【答案】：A

解析：本题考察大数据应用场景。电商平台通过用户浏览历史、购买记录、行为偏好等数据构建推荐模型，实现个性化商品推荐；B、C、D均为传统业务场景，数据规模小、逻辑简单，不依赖大数据分析技术。因此正确答案为A。

3、在大数据预处理流程中，“去除数据中的噪声、填补缺失值、处理重复记录”属于哪个步骤？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据预处理的关键步骤。数据清洗的主要任务是处理数据质量问题，包括去除噪声、填补缺失值、处理异常值和重复记录。选项B“数据集成”是合并多源数据；选项C“数据转换”是对数据格式或属性进行标准化；选项D“数据规约”是通过降维或压缩减少数据量，均不符合题意。

4、数据清洗在大数据处理流程中的主要作用是？

A.去除数据中的噪声和异常值

B.提高数据存储的物理效率

C.加速数据传输速度

D.降低数据采集成本

【答案】：A

解析：本题考察数据清洗的核心目的。数据清洗是对原始数据进行预处理，主要解决数据中的缺失值、重复值、异常值、噪声等问题，以提升数据质量，确保后续分析结果的准确性。选项B、C、D分别涉及存储效率、传输速度、采集成本，均不属于数据清洗的核心作用，因此正确答案为A。

5、HBase作为分布式数据库，其数据模型属于以下哪种类型？

A.关系型数据库（SQL）

B.NoSQL数据库

C.键值对数据库

D.文档型数据库

【答案】：B

解析：本题考察HBase数据模型类型知识点。HBase是基于HDFS的分布式列族数据库，属于NoSQL（非关系型）数据库范畴；A选项关系型数据库（如MySQL）采用表结构和SQL语言；C选项键值对数据库（如Redis）仅支持键值对存储，HBase是列族模型，属于更复杂的NoSQL类型；D选项文档型数据库（如MongoDB）以文档为单位存储数据。因此正确答案为B。

6、以下哪个应用场景最能体现大数据的‘高速’（Velocity）特征？

A.传统银行柜台业务处理

B.实时交通流量监控与导航

C.企业历史数据归档

D.纸质文件扫描存储

【答案】：B

解析：大数据Velocity特征强调数据处理的高速性。实时交通流量监控需对实时数据流快速采集、分析并反馈导航，体现‘高速’要求。A选项处理速度慢，C选项离线归档，D选项仅存储，均不涉及实时处理。因此正确答案为B。

7、以下哪种技术适用于实时性要求高的场景（如实时监控、实时交易分析）？

A.批处理（如Hadoop离线计算）

B.流处理（如SparkStreaming/Flink）

C.时序数据库（存储时间序列数据）

D.数据挖掘（提取潜在模式）

【答案】：B

解析：本题考察大数据处理技术知识点。批处理（如Hadoop）适合处理历史/海量离线数据；流处理（如SparkStreaming、Flink）针对实时/高速数据流，适用于实时监控、高频交易分析等低延迟场景；时序数据库（如InfluxDB）是存储时间序列数据的工具，非处理技术；数据挖掘是从数据中提取模式的方法，非处理技术。因此正确答案为B。

8、以下哪个是分布式文件系统？

A.Hadoop

B.HDFS

C.Spark

D.YARN

【答案】：B

解析：本题考察大数据技术框架知识点。HDFS（HadoopDistributedFileSystem）是Hadoop生态系统中的分布式文件系统，用于存储海量数据；A选项Hadoop是分布式计算框架的统称，C选项Spark是内存计算框架，D选项YARN是资源管理器，均非分布式文件系统，因此正确答案为B。

9、数据预处理阶段中，处理数据中存在的重复记录、缺失值和异常值等问题属于以下哪个操作？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据数据预处理的关

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道（夺冠）.docxVIP