2026年国开电大大数据技术概论形考题库100道附参考答案【b卷】.docxVIP

  • 1
  • 0
  • 约2.51万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道附参考答案【b卷】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.MapReduce

B.HDFS

C.YARN

D.Spark

【答案】:B

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为海量数据存储设计;A选项MapReduce是分布式计算框架,负责并行计算;C选项YARN是资源管理器,调度集群资源;D选项Spark是独立的内存计算框架,不属于Hadoop核心组件。正确答案为B。

2、Hadoop生态系统中,负责分布式计算任务调度与资源管理的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。HDFS是分布式文件系统,负责数据存储;MapReduce是分布式计算框架,负责并行计算;YARN是资源管理器,负责集群资源调度与任务管理;Hive是基于Hadoop的数据仓库工具,用于数据查询与分析。因此正确答案为C。

3、下列关于大数据技术与云计算关系的描述,正确的是?

A.大数据必须部署在私有云环境中才能运行

B.云计算为大数据处理提供了弹性计算与存储资源支持

C.云计算是大数据处理的唯一技术基础

D.大数据技术的发展与云计算无关

【答案】:B

解析:本题考察大数据与云计算的技术关系。云计算通过提供弹性计算资源(如服务器、存储)和分布式架构,为大数据的海量存储和并行计算提供了核心支撑,因此B正确;A错误(大数据可在公有云、私有云或混合云环境运行),C错误(大数据处理还可基于本地集群等),D错误(两者技术紧密结合,云计算是大数据发展的关键基础设施)。

4、大数据的5V特征中,不包含以下哪一项?

A.Volume

B.Velocity

C.Validity

D.Veracity

【答案】:C

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(数据规模大)、Velocity(数据产生和处理速度快)、Variety(数据类型多样)、Veracity(数据真实性)和Value(数据价值密度低但整体价值高)。选项C的Validity(有效性)不属于5V特征,因此正确答案为C。

5、MongoDB数据库主要采用以下哪种数据模型进行数据存储?

A.关系模型(如MySQL)

B.文档模型(Document)

C.键值对模型(如Redis)

D.列族模型(如HBase)

【答案】:B

解析:本题考察NoSQL数据库类型。选项A的关系模型是传统关系型数据库(如MySQL)的核心;选项B的文档模型以类似JSON的文档结构存储数据,MongoDB是典型的文档型数据库;选项C的键值对模型以‘键-值’对存储数据(如Redis);选项D的列族模型按列存储数据(如HBase)。因此正确答案为B。

6、以下哪种数据类型属于非结构化数据?

A.数据库表中的记录

B.文本文件

C.电子表格

D.关系型数据库数据

【答案】:B

解析:本题考察大数据数据类型知识点。结构化数据具有固定格式和明确字段定义,如数据库表记录、电子表格、关系型数据库数据(A、C、D均属于结构化数据);非结构化数据无固定格式,如文本文件、图片、音频等,因此选项B(文本文件)属于非结构化数据。

7、以下哪项应用属于大数据在交通领域的典型落地场景?

A.智能交通管理系统(实时路况分析与信号灯动态调控)

B.基于知识图谱的智能客服机器人(自动解答用户咨询)

C.银行信贷风控模型(分析用户信用数据评估贷款风险)

D.社交媒体舆情监控平台(实时抓取并分析网络热点事件)

【答案】:A

解析:本题考察大数据在不同领域的应用场景。选项A‘智能交通管理系统’通过实时采集交通流量、车辆位置等数据,结合大数据分析优化信号灯,属于交通领域典型应用;选项B属于AI客服(NLP领域),选项C属于金融风控,选项D属于舆情监控,均与交通领域无关。因此正确答案为A。

8、下列工具中,主要用于大数据可视化分析的是?

A.Tableau

B.Python的pandas库

C.Hadoop

D.Hive

【答案】:A

解析:本题考察大数据分析工具知识点。Tableau是专业的商业智能可视化工具,可直观展示数据趋势和关系;pandas是Python的数据处理库,侧重数据清洗和分析;Hadoop是分布式计算框架,用于海量数据存储和处理;Hive是基于Hadoop的数据仓库工具,用于结构化数据查询。因此正确答案

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档