2026年国开电大大数据技术概论形考题库100道及一套完整答案.docxVIP

  • 1
  • 0
  • 约2.51万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及一套完整答案.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、Hadoop分布式文件系统的英文缩写是?

A.HDFS

B.MapReduce

C.YARN

D.Spark

【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是Hadoop的核心计算模型,YARN是资源管理器,Spark是独立的内存计算框架(不属于Hadoop核心组件)。因此正确答案为A。

2、数据清洗的主要目的是?

A.提高数据质量

B.增加数据存储容量

C.改变数据格式

D.预测数据未来趋势

【答案】:A

解析:本题考察大数据预处理中数据清洗的知识点。数据清洗是对原始数据进行去重、填补缺失值、处理异常值等操作,核心目的是去除噪声和错误数据,提高数据质量以支持后续分析。选项B“增加存储容量”是数据扩容的目标,与清洗无关;选项C“改变格式”属于数据转换,非清洗目的;选项D“预测趋势”是数据分析阶段的任务,非清洗阶段。

3、大数据的4V特征不包括以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Veracity(真实性)

【答案】:D

解析:本题考察大数据的核心特征(4V)知识点。大数据的4V特征明确为Volume(数据容量)、Velocity(处理速度)、Variety(数据多样性)、Value(数据价值),而Veracity(真实性)并非4V特征之一,因此正确答案为D。

4、以下哪个不是Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.Spark(内存计算框架)

C.YARN(资源管理器)

D.MapReduce(计算框架)

【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统核心组件包括HDFS(分布式存储)、MapReduce(分布式计算)、YARN(资源管理)等。Spark是独立的大数据处理框架,不属于Hadoop生态系统核心组件,因此正确答案为B。

5、以下哪种数据类型属于大数据处理中的非结构化数据?

A.关系型数据库表中的结构化数据(如MySQL表格数据)

B.无固定格式的文本文件(如纯文本日志、小说等)

C.具有层级结构的XML/JSON数据(半结构化数据)

D.二维表格形式的Excel数据(结构化数据)

【答案】:B

解析:本题考察大数据的数据类型知识点。大数据数据类型分为三类:结构化数据(如关系型数据库表,选项A、D)、半结构化数据(如XML/JSON,选项C,具有一定结构但非严格关系模型)和非结构化数据(如文本文件、图片等,无固定格式和预定义结构)。选项B的无固定格式文本文件符合非结构化数据定义,因此正确答案为B。

6、数据挖掘的核心目标是?

A.仅用于数据存储与备份

B.从海量数据中发现潜在的、有价值的模式或知识

C.对数据进行简单的求和、计数等统计计算

D.仅用于数据可视化呈现

【答案】:B

解析:本题考察数据挖掘的基本概念。数据挖掘是从大量数据中提取隐含、未知、非平凡且有价值的模式或知识的过程。A选项是数据存储的功能;C选项是描述性统计的范畴,不属于数据挖掘;D选项是数据可视化的功能,与数据挖掘目标无关。因此正确答案为B。

7、大数据的哪个特征是指数据产生和处理的速度快?

A.速度(Velocity)

B.容量(Volume)

C.多样性(Variety)

D.价值(Value)

【答案】:A

解析:本题考察大数据的4V特征知识点。大数据的Velocity特征特指数据产生和处理的速度快(如实时流数据处理场景);Volume指数据量巨大(PB级以上),Variety指数据类型多样(结构化、半结构化、非结构化),Value指从海量数据中挖掘潜在价值。因此正确答案为A。

8、在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.MapReduce

B.HDFS

C.YARN

D.Spark

【答案】:B

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为海量数据存储设计;A选项MapReduce是分布式计算框架,负责并行计算;C选项YARN是资源管理器,调度集群资源;D选项Spark是独立的内存计算框架,不属于Hadoop核心组件。正确答案为B。

9、大数据技术在医疗行业的典型应用场景是?

A.智慧城市交通流量预测(城市管理大数据)

B.电商平台用户行为分析(电商推荐大数据)

C.

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档