2026年国开电大大数据技术形考题库100道(易错题).docxVIP

  • 0
  • 0
  • 约2.45万字
  • 约 39页
  • 2026-03-10 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道(易错题).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Spark作为主流大数据计算框架,其相比MapReduce的核心优势在于?

A.更适合大规模离线批处理任务

B.基于内存计算,运行速度更快

C.仅支持结构化数据处理

D.对硬件资源要求更低

【答案】:B

解析:本题考察主流大数据计算框架(SparkvsMapReduce)的技术差异知识点。Spark的核心优势是采用内存计算模式,将中间结果存储在内存而非磁盘,大幅减少IO操作,因此运行速度比MapReduce(基于磁盘的迭代计算)快数倍至数十倍。选项A错误,MapReduce更擅长传统大规模离线批处理;选项C错误,Spark支持结构化、半结构化和非结构化数据;选项D错误,Spark若全内存计算可能需要更多内存资源。因此正确答案为B。

2、以下哪项属于数据预处理中处理缺失值的常用方法?

A.均值插值法(如均值、中位数填充)

B.分类算法(如决策树分类)

C.聚类算法(如K-Means聚类)

D.关联规则挖掘(如Apriori算法)

【答案】:A

解析:本题考察数据预处理方法知识点。数据预处理中处理缺失值的常用方法包括均值/中位数插值、众数填充、基于模型的预测填充等,选项A符合。而B、C、D均属于数据挖掘算法(分类、聚类、关联规则),不属于数据预处理方法。

3、数据预处理阶段中,用于处理数据缺失值、异常值和重复数据的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据清洗的核心作用是处理数据中的质量问题,包括缺失值填充、异常值修正、重复数据删除等;B选项数据集成是合并多个数据源,C选项数据转换是对数据格式或尺度进行标准化处理,D选项数据规约是通过降维或采样减少数据规模。因此正确答案为A。

4、以下关于数据仓库(DW)和数据湖(DataLake)的描述,正确的是?

A.数据仓库主要存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向主题和历史数据,数据湖更注重原始数据的存储与管理

C.数据仓库更新频率高,数据湖更新频率低

D.数据仓库适合实时分析,数据湖适合批处理分析

【答案】:B

解析:本题考察数据仓库与数据湖的核心区别。数据仓库(DW)是面向主题、集成、时变、非易失的结构化数据集合,用于历史分析和决策支持;数据湖(DataLake)则支持存储结构化、半结构化、非结构化原始数据,强调数据多样性和灵活性,更注重原始数据的存储与管理。选项A错误,数据湖可存储结构化数据;选项C错误,数据湖因存储原始数据,更新频率通常更高;选项D错误,数据仓库适合批处理,数据湖可同时支持批处理和实时分析。

5、以下哪种系统主要用于支持企业的日常事务处理(如订单管理、用户登录等)?

A.OLTP(联机事务处理系统)

B.OLAP(联机分析处理系统)

C.数据仓库(DataWarehouse)

D.数据湖(DataLake)

【答案】:A

解析:本题考察OLTP与OLAP系统的区别知识点。OLTP(A)以事务处理为核心,针对短时间、高频次的业务操作(如订单创建、支付),强调实时性和高并发;OLAP(B)用于复杂数据分析(如销售报表、趋势预测),侧重决策支持。数据仓库(C)是OLAP的典型存储载体,用于整合历史数据;数据湖(D)存储原始数据(结构化、半结构化、非结构化),更偏向存储而非事务处理。因此答案为A。

6、下列算法中,常用于大数据分类任务的是?

A.K-Means聚类算法

B.Apriori关联规则算法

C.支持向量机(SVM)

D.PCA主成分分析算法

【答案】:C

解析:本题考察数据挖掘算法类型知识点。支持向量机(SVM)是典型的有监督分类算法;K-Means是无监督聚类算法,Apriori用于关联规则挖掘(无监督),PCA用于降维(特征工程),因此答案为C。

7、Spark相比MapReduce,在数据处理上的主要优势是?

A.仅支持批处理任务

B.基于内存计算,处理速度更快

C.必须依赖磁盘进行所有中间结果存储

D.仅能处理结构化数据

【答案】:B

解析:本题考察Spark与MapReduce的技术对比。Spark采用内存计算模型,中间结果暂存内存,大幅减少磁盘I/O,处理速度远快于MapReduce(后者依赖磁盘存储中间结果);Spark不仅支持批处理,还支持流处理(如SparkStreaming)等多种任务;且Spark对结构化、半结构化、非结构化数据均有良好支持。因此正确答案为B。

8、以下哪项不属于大数据在实时处理场景中的典型应用?

A.交通流量实时监控系统

B.金融高频交易系统

C.用户历史行为

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档