2026年国开电大大数据技术形考题库100道带答案(巩固).docxVIP

  • 0
  • 0
  • 约2.48万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道带答案(巩固).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的哪一项特征强调数据产生和处理的速度快?

A.容量(Volume)

B.速度(Velocity)

C.多样性(Variety)

D.价值密度(Value)

【答案】:B

解析:本题考察大数据的核心特征,正确答案为B。大数据的Velocity特征指数据产生和处理的速度极快(如实时数据流);A选项“容量”描述数据规模大小;C选项“多样性”指数据来源/格式多样(结构化/非结构化);D选项“价值密度”指海量数据中高价值信息需挖掘。因此B选项符合题意。

2、以下哪个是ApacheSpark生态系统中用于实时流数据处理的组件?

A.SparkSQL

B.SparkStreaming

C.SparkMLlib

D.SparkGraphX

【答案】:B

解析:本题考察Spark生态系统组件知识点。SparkStreaming是Spark的实时流处理组件,支持高吞吐量数据流的实时分析;SparkSQL用于结构化数据查询,SparkMLlib是机器学习库,SparkGraphX用于图计算。实时流处理对应SparkStreaming,选B。

3、以下哪项不属于大数据的5V特性?

A.Volume

B.Velocity

C.Value

D.Variable

【答案】:D

解析:本题考察大数据5V特性知识点。大数据的5V特性为Volume(容量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)、Value(价值),Variable(变量)不属于5V特性,因此正确答案为D。

4、以下哪项不属于大数据的基本特征?

A.Volume(数据量大)

B.Velocity(处理速度快)

C.Veracity(数据真实性)

D.Value(价值密度低)

【答案】:C

解析:本题考察大数据的基本特征知识点。大数据的经典4V特征包括Volume(数据量大)、Velocity(数据产生和处理速度快)、Variety(数据类型多样)、Value(低价值密度)。选项C“Veracity(数据真实性)”并非大数据的基础特征,更多属于数据质量评估范畴,因此正确答案为C。

5、在大数据技术应用中,用于实时流数据处理的开源框架是?

A.SparkStreaming

B.Hadoop

C.Hive

D.HBase

【答案】:A

解析:本题考察大数据实时处理框架知识点。SparkStreaming是Spark生态系统中处理实时流数据的组件,支持高吞吐量和低延迟;Hadoop是批处理框架,侧重离线数据处理;Hive是基于Hadoop的数据仓库工具,用于SQL式查询;HBase是分布式NoSQL数据库,侧重存储而非实时流处理。因此正确答案为A。

6、在Hadoop生态系统中,负责分布式存储海量数据的组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS是Hadoop的分布式文件系统,核心作用是分布式存储海量数据;选项B的MapReduce是分布式计算框架,用于并行处理大数据任务;选项C的YARN负责集群资源管理和调度;选项D的Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此,负责存储的组件是HDFS,正确答案为A。

7、以下哪项属于大数据在交通领域的典型应用?

A.电商平台智能推荐系统

B.城市交通流量实时预测与信号灯优化

C.基因测序数据的生物特征分析

D.社交媒体用户情感倾向识别

【答案】:B

解析:本题考察大数据的行业应用场景。选项B中“城市交通流量预测与信号灯优化”直接利用交通数据(Volume、Velocity等)实现实时决策,属于交通领域典型应用;A、D属于电商/社交领域,C属于生物医疗领域,因此正确答案为B。

8、Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.MapReduce(计算框架)

B.YARN(资源管理器)

C.HDFS(分布式文件系统)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(分布式文件系统)是Hadoop的核心存储组件,负责将海量数据分布存储在多台服务器上;MapReduce是分布式计算框架,负责并行处理数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。选项A、B、D均非Hadoop的分布式存储组件,因此正确答案为C。

9、

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档