2026年国开电大大数据技术形考题库100道【必刷】.docxVIP

  • 0
  • 0
  • 约2.44万字
  • 约 39页
  • 2026-03-09 发布于山东
  • 举报

2026年国开电大大数据技术形考题库100道【必刷】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责存储海量结构化与非结构化数据的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Spark(内存计算引擎)

【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,专门用于存储海量数据;MapReduce是分布式计算框架,YARN是资源管理系统,Spark是独立的内存计算引擎(非Hadoop原生核心组件)。因此正确答案为A。

2、在大数据处理流程中,“数据预处理”阶段的主要任务不包括以下哪项?

A.数据清洗

B.数据集成

C.数据挖掘

D.数据转换

【答案】:C

解析:本题考察大数据处理流程,正确答案为C。数据预处理包括数据清洗(处理缺失值/异常值)、集成(合并多源数据)、转换(格式归一化);“数据挖掘”是从预处理后的数据中提取价值的高级分析步骤,属于后续阶段。因此C选项不属于预处理。

3、在大数据预处理流程中,将不同来源的分散数据合并到统一存储系统的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:B

解析:本题考察数据预处理步骤的知识点。数据集成是指将多个数据源(如数据库、日志文件、API接口)合并为单一数据集,解决数据分散问题。A选项数据清洗是处理缺失值、异常值、重复值;C选项数据转换是对数据格式(如标准化、归一化)或类型进行调整;D选项数据归约是通过降维、采样等方式减少数据量。因此“合并多源数据”属于数据集成环节。

4、以下哪项是大数据在电商领域的典型应用?

A.智能交通信号控制(交通领域)

B.基于用户行为分析的个性化商品推荐(电商领域)

C.医院病历数据分析(医疗领域)

D.企业财务报表自动生成(传统财务领域)

【答案】:B

解析:本题考察大数据应用场景。A属于交通领域,C属于医疗领域,D属于传统财务自动化处理;B通过分析用户浏览、购买、停留时间等大数据,实现精准推荐商品,是电商个性化营销的核心应用。因此正确答案为B。

5、下列哪种工具属于大数据可视化工具?

A.MySQL(关系型数据库管理系统)

B.ApacheHBase(分布式数据库)

C.Tableau(交互式可视化平台)

D.Pig(高级查询语言)

【答案】:C

解析:本题考察大数据工具类型。Tableau是专业的交互式数据可视化工具,用于生成图表、仪表盘等;A、B属于数据存储工具,D是Hadoop生态中的查询语言,因此正确答案为C。

6、以下哪种算法属于数据挖掘中的分类算法?

A.K-Means

B.Apriori

C.决策树

D.PCA

【答案】:C

解析:本题考察数据挖掘算法类型。决策树是典型的分类算法,通过构建树状模型对数据进行分类预测;K-Means是无监督学习的聚类算法;Apriori用于挖掘关联规则(如购物篮分析);PCA(主成分分析)是降维算法。因此正确答案为C。

7、在大数据预处理流程中,“去除重复记录”属于以下哪个步骤?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理步骤知识点。数据清洗阶段主要处理数据质量问题,包括去除重复记录、填补缺失值、处理异常值等;数据集成是合并多源数据,数据转换是格式转换或标准化,数据规约是减少数据规模。去除重复记录属于数据清洗环节,选A。

8、在数据挖掘算法中,以下哪一项属于无监督学习算法?

A.K-Means聚类算法

B.支持向量机(SVM)

C.决策树

D.逻辑回归

【答案】:A

解析:本题考察数据挖掘算法分类知识点。无监督学习算法无需人工标注的标签数据,主要用于发现数据中的潜在模式或结构,A选项K-Means是典型的无监督聚类算法,通过距离度量将数据分组;B选项SVM(支持向量机)、C选项决策树、D选项逻辑回归均属于有监督学习算法,需要已知的训练标签数据,通过学习输入与输出的映射关系进行分类或回归预测。因此正确答案为A。

9、Spark相比MapReduce,在处理速度上具有显著优势的主要原因是?

A.采用内存计算模式

B.支持更多数据格式

C.使用Java语言开发

D.提供更丰富的API

【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势在于内存计算(In-MemoryComputing),中间结果存储在内存而非磁盘,避免了MapReduce因多次磁盘IO导致的性能损耗。A选项正确。B选项“支持更多数据格式”是

文档评论(0)

1亿VIP精品文档

相关文档