2026年国开电大大数据技术概论形考题库100道及答案(全国通用).docxVIP

  • 0
  • 0
  • 约2.46万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及答案(全国通用).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、数据挖掘的核心目标是?

A.仅用于数据存储与备份

B.从海量数据中发现潜在的、有价值的模式或知识

C.对数据进行简单的求和、计数等统计计算

D.仅用于数据可视化呈现

【答案】:B

解析:本题考察数据挖掘的基本概念。数据挖掘是从大量数据中提取隐含、未知、非平凡且有价值的模式或知识的过程。A选项是数据存储的功能;C选项是描述性统计的范畴,不属于数据挖掘;D选项是数据可视化的功能,与数据挖掘目标无关。因此正确答案为B。

2、大数据的4V特征中,不包含以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Validity(有效性)

【答案】:D

解析:本题考察大数据的核心特征(4V)知识点。大数据的4V特征是指Volume(数据量)、Velocity(数据产生速度)、Variety(数据多样性)和Value(数据价值),而Validity(有效性)并非4V特征之一。因此正确答案为D,A、B、C均为4V特征的核心内容。

3、以下哪项是Hadoop分布式计算框架的核心组件?

A.MapReduce

B.Hive

C.HBase

D.Spark

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。MapReduce是Hadoop分布式计算框架的核心组件,负责分布式并行计算任务;Hive是基于Hadoop的数据仓库工具,HBase是分布式NoSQL数据库,Spark是独立的内存计算引擎,均不属于Hadoop分布式计算框架的核心组件。因此正确答案为A。

4、下列哪种工具常用于实时或准实时的分布式日志收集与聚合?

A.Flume(日志收集框架)

B.Sqoop(数据导入导出工具)

C.Kafka(分布式消息队列)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察大数据数据采集工具的功能,正确答案为A。Flume是Cloudera开源的分布式日志收集系统,支持多数据源(如日志文件、数据库)的实时聚合与传输,具备高可用和可扩展性;B选项Sqoop主要用于Hadoop与关系型数据库间的数据批量导入导出;C选项Kafka是高吞吐量的分布式消息系统,侧重消息传递而非直接日志聚合;D选项Hive是基于Hadoop的SQL数据仓库工具,与日志收集无关。因此A选项正确。

5、相比Hadoop的MapReduce,ApacheSpark的显著技术优势是?

A.仅支持批处理任务,不支持流处理

B.基于内存计算,计算速度更快

C.不支持SQL查询和机器学习算法

D.必须依赖HDFS才能运行,无法独立部署

【答案】:B

解析:本题考察Spark与MapReduce的技术对比。Spark的核心优势是基于内存计算,避免了MapReduce多次磁盘IO操作,大幅提升计算速度;A错误,Spark同时支持批处理和流处理(如StructuredStreaming);C错误,Spark提供SparkSQL和MLlib等模块支持SQL查询和机器学习;D错误,Spark可独立部署,也可与Hadoop生态集成。因此正确答案为B。

6、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件知识点。HDFS是Hadoop分布式文件系统,核心功能是分布式存储海量数据;MapReduce是分布式计算框架,负责并行处理任务;YARN是资源管理器,负责调度集群资源;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此负责分布式存储的核心组件是HDFS,正确答案为A。

7、以下哪种大数据分析方法侧重于通过历史数据预测未来趋势或行为?

A.描述性分析(总结过去发生的事件)

B.诊断性分析(分析事件发生的原因)

C.预测性分析(预测未来趋势或行为)

D.规范性分析(提出行动建议)

【答案】:C

解析:描述性分析回答“发生了什么”(如销量增长10%),A错误;诊断性分析回答“为什么发生”(如销量下降原因),B错误;预测性分析回答“将要发生什么”(如预测下月销量),C正确;规范性分析回答“应该怎么做”(如建议增加促销),D错误。

8、以下哪种数据采集方式不属于大数据常用的自动采集手段?

A.传感器实时采集环境数据

B.服务器日志自动记录用户行为

C.企业员工手动录入财务报表

D.网络爬虫抓取公开数据

【答案】:C

解析:本题考察大数据数据采集方法。大数据采集通常强调自动化和规模化,C选项“员工手动录入”属于人工操

文档评论(0)

1亿VIP精品文档

相关文档