2026年国开电大大数据技术形考题库100道【必刷】.docxVIP

下载本文档

0
0
约2.44万字
约 39页
2026-03-09 发布于山东
举报

2026年国开电大大数据技术形考题库100道【必刷】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中，负责存储海量结构化与非结构化数据的核心组件是？

A.HDFS（分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Spark（内存计算引擎）

【答案】：A

解析：本题考察Hadoop核心组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop生态系统的分布式文件系统，专门用于存储海量数据；MapReduce是分布式计算框架，YARN是资源管理系统，Spark是独立的内存计算引擎（非Hadoop原生核心组件）。因此正确答案为A。

2、在大数据处理流程中，“数据预处理”阶段的主要任务不包括以下哪项？

A.数据清洗

B.数据集成

C.数据挖掘

D.数据转换

【答案】：C

解析：本题考察大数据处理流程，正确答案为C。数据预处理包括数据清洗（处理缺失值/异常值）、集成（合并多源数据）、转换（格式归一化）；“数据挖掘”是从预处理后的数据中提取价值的高级分析步骤，属于后续阶段。因此C选项不属于预处理。

3、在大数据预处理流程中，将不同来源的分散数据合并到统一存储系统的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】：B

解析：本题考察数据预处理步骤的知识点。数据集成是指将多个数据源（如数据库、日志文件、API接口）合并为单一数据集，解决数据分散问题。A选项数据清洗是处理缺失值、异常值、重复值；C选项数据转换是对数据格式（如标准化、归一化）或类型进行调整；D选项数据归约是通过降维、采样等方式减少数据量。因此“合并多源数据”属于数据集成环节。

4、以下哪项是大数据在电商领域的典型应用？

A.智能交通信号控制（交通领域）

B.基于用户行为分析的个性化商品推荐（电商领域）

C.医院病历数据分析（医疗领域）

D.企业财务报表自动生成（传统财务领域）

【答案】：B

解析：本题考察大数据应用场景。A属于交通领域，C属于医疗领域，D属于传统财务自动化处理；B通过分析用户浏览、购买、停留时间等大数据，实现精准推荐商品，是电商个性化营销的核心应用。因此正确答案为B。

5、下列哪种工具属于大数据可视化工具？

A.MySQL（关系型数据库管理系统）

B.ApacheHBase（分布式数据库）

C.Tableau（交互式可视化平台）

D.Pig（高级查询语言）

【答案】：C

解析：本题考察大数据工具类型。Tableau是专业的交互式数据可视化工具，用于生成图表、仪表盘等；A、B属于数据存储工具，D是Hadoop生态中的查询语言，因此正确答案为C。

6、以下哪种算法属于数据挖掘中的分类算法？

A.K-Means

B.Apriori

C.决策树

D.PCA

【答案】：C

解析：本题考察数据挖掘算法类型。决策树是典型的分类算法，通过构建树状模型对数据进行分类预测；K-Means是无监督学习的聚类算法；Apriori用于挖掘关联规则（如购物篮分析）；PCA（主成分分析）是降维算法。因此正确答案为C。

7、在大数据预处理流程中，“去除重复记录”属于以下哪个步骤？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据预处理步骤知识点。数据清洗阶段主要处理数据质量问题，包括去除重复记录、填补缺失值、处理异常值等；数据集成是合并多源数据，数据转换是格式转换或标准化，数据规约是减少数据规模。去除重复记录属于数据清洗环节，选A。

8、在数据挖掘算法中，以下哪一项属于无监督学习算法？

A.K-Means聚类算法

B.支持向量机（SVM）

C.决策树

D.逻辑回归

【答案】：A

解析：本题考察数据挖掘算法分类知识点。无监督学习算法无需人工标注的标签数据，主要用于发现数据中的潜在模式或结构，A选项K-Means是典型的无监督聚类算法，通过距离度量将数据分组；B选项SVM（支持向量机）、C选项决策树、D选项逻辑回归均属于有监督学习算法，需要已知的训练标签数据，通过学习输入与输出的映射关系进行分类或回归预测。因此正确答案为A。

9、Spark相比MapReduce，在处理速度上具有显著优势的主要原因是？

A.采用内存计算模式

B.支持更多数据格式

C.使用Java语言开发

D.提供更丰富的API

【答案】：A

解析：本题考察Spark与MapReduce的技术差异。Spark的核心优势在于内存计算（In-MemoryComputing），中间结果存储在内存而非磁盘，避免了MapReduce因多次磁盘IO导致的性能损耗。A选项正确。B选项“支持更多数据格式”是

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道【必刷】.docxVIP