2026年国开电大大数据技术形考题库100道及参考答案【a卷】.docxVIP

  • 0
  • 0
  • 约2.49万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道及参考答案【a卷】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、MongoDB数据库采用的存储模型是?

A.键值对(Key-Value)

B.列族(Column-Family)

C.文档型(Document)

D.图状结构(Graph)

【答案】:C

解析:本题考察NoSQL数据库类型知识点。MongoDB以JSON格式的“文档”为基本存储单元,属于文档型数据库;键值型(如Redis)以键值对存储,列族型(如HBase)按列族组织数据,图状结构(如Neo4j)以节点和关系存储,均不符合MongoDB的存储模型。

2、在MapReduce编程模型中,哪个阶段负责对Map阶段输出的中间结果进行聚合,生成最终计算结果?

A.Map阶段

B.Reduce阶段

C.Shuffle阶段

D.Split阶段

【答案】:B

解析:本题考察MapReduce编程模型知识点。MapReduce采用“分而治之”思想,分为Map、Shuffle、Reduce三个主要阶段。Map阶段(A)负责将输入数据拆分为键值对,进行初步映射处理;Shuffle阶段(C)负责将Map输出的中间结果按Key分发到对应的Reduce节点;Reduce阶段(B)接收Shuffle后的中间结果,对相同Key的Value进行聚合计算,生成最终结果。Split阶段(D)是数据分片,属于底层准备工作。因此答案为B。

3、通过分析历史数据揭示未来趋势并预测事件可能性的大数据分析类型是?

A.描述性分析

B.诊断性分析

C.预测性分析

D.规范性分析

【答案】:C

解析:本题考察大数据分析类型知识点。预测性分析的核心是基于历史数据构建模型,预测未来趋势或事件发生概率;描述性分析是总结历史数据(如报表统计),诊断性分析是定位问题原因(如根因分析),规范性分析是提供行动建议(如最优策略推荐)。因此正确答案为C。

4、数据仓库中常用的逻辑模型包括以下哪些?

A.星型模型(事实表+维度表)

B.雪花模型(维度表分层)

C.星座模型(多个事实表共享维度表)

D.以上都是

【答案】:D

解析:本题考察数据仓库的逻辑模型知识点。数据仓库常用的逻辑模型包括:星型模型(最简单,单事实表+多维度表)、雪花模型(维度表进一步分层,更规范)、星座模型(多个事实表共享维度表,适用于复杂业务)。三者均为数据仓库的核心逻辑模型,因此正确答案为D。

5、以下关于Spark与MapReduce的对比,正确的是?

A.Spark只能处理批处理任务,无法处理流数据

B.Spark基于内存计算,比MapReduce更高效

C.Spark不支持分布式计算,仅适用于单机环境

D.Spark的编程模型比MapReduce更复杂

【答案】:B

解析:本题考察大数据计算框架知识点。A错误,Spark支持批处理(SparkBatch)、流处理(SparkStreaming)和交互式查询;B正确,MapReduce基于磁盘I/O执行Map和Reduce,Spark利用内存缓存数据,减少磁盘读写,计算效率更高;C错误,Spark是分布式计算框架,支持集群部署;D错误,Spark提供更简洁的API(如DataFrame、Dataset),编程模型比MapReduce更简单。因此选B。

6、数据预处理中,将数据格式统一、单位转换等操作属于以下哪个环节?

A.数据清洗(处理缺失值/异常值)

B.数据集成(合并多源数据)

C.数据转换(格式/单位标准化)

D.数据规约(降维/采样)

【答案】:C

解析:本题考察数据预处理步骤。数据转换阶段的核心任务是对数据进行格式转换、单位统一、标准化等操作;A项数据清洗主要处理数据质量问题(如缺失值、异常值),B项数据集成是合并不同来源的数据集,D项数据规约是通过降维、采样等方法减少数据规模,因此C选项正确。

7、在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责并行计算任务;YARN是资源管理器,协调集群资源;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此负责分布式存储的核心组件是HDFS。

8、Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档