2026年国开电大大数据技术形考题库100道含答案【黄金题型】.docxVIP

  • 0
  • 0
  • 约2.44万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道含答案【黄金题型】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责分布式存储海量数据的组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS是Hadoop的分布式文件系统,核心作用是分布式存储海量数据;选项B的MapReduce是分布式计算框架,用于并行处理大数据任务;选项C的YARN负责集群资源管理和调度;选项D的Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此,负责存储的组件是HDFS,正确答案为A。

2、Spark作为主流大数据计算框架,其相比MapReduce的核心优势在于?

A.更适合大规模离线批处理任务

B.基于内存计算,运行速度更快

C.仅支持结构化数据处理

D.对硬件资源要求更低

【答案】:B

解析:本题考察主流大数据计算框架(SparkvsMapReduce)的技术差异知识点。Spark的核心优势是采用内存计算模式,将中间结果存储在内存而非磁盘,大幅减少IO操作,因此运行速度比MapReduce(基于磁盘的迭代计算)快数倍至数十倍。选项A错误,MapReduce更擅长传统大规模离线批处理;选项C错误,Spark支持结构化、半结构化和非结构化数据;选项D错误,Spark若全内存计算可能需要更多内存资源。因此正确答案为B。

3、在大数据实时数据处理中,用于构建高吞吐、低延迟的消息系统的开源框架是?

A.Flume(日志采集工具)

B.Sqoop(数据导入导出工具)

C.Kafka(分布式消息队列)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察大数据生态工具知识点。Kafka是高吞吐、低延迟的分布式消息系统,适用于实时数据流处理;Flume专注于日志数据采集,Sqoop用于结构化数据导入导出,Hive是基于Hadoop的数据仓库工具。因此正确答案为C。

4、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,用于并行处理海量数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此负责分布式存储的组件是HDFS,正确答案为A。

5、在Hadoop分布式计算框架中,负责分布式存储的核心组件是?

A.MapReduce(分布式计算框架)

B.HDFS(分布式文件系统)

C.YARN(资源管理器)

D.ZooKeeper(分布式协调服务)

【答案】:B

解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN负责集群资源管理,ZooKeeper提供分布式协调服务。因此正确答案为B。

6、在大数据预处理中,以下哪种方法不属于处理缺失值的常用手段?

A.删除包含缺失值的记录

B.使用均值/中位数进行插补

C.直接忽略缺失数据

D.通过KNN算法预测缺失值

【答案】:C

解析:本题考察数据预处理中缺失值处理方法。常用缺失值处理方法包括A(删除)、B(统计量插补)、D(基于模型预测);C选项“直接忽略数据”不符合数据处理规范,会导致数据信息损失且缺乏系统性。因此正确答案为C。

7、Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统组件知识点。HDFS是Hadoop的分布式文件系统,专门负责海量数据的分布式存储;MapReduce是批处理计算框架,YARN负责集群资源管理与调度,Hive是数据仓库工具用于数据查询与分析,均不负责核心存储。

8、在大数据处理流程中,用于处理数据中的缺失值、异常值和重复数据的环节是?

A.数据集成

B.数据清洗

C.数据转换

D.数据规约

【答案】:B

解析:数据清洗是数据预处理的关键步骤,主要任务包括处理缺失值(如填充/删除)、异常值(检测/修正)和重复数据(去重);数据集成是合并多

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档