2026年国开电大大数据技术概论形考题库100道【典优】.docxVIP

  • 1
  • 0
  • 约2.42万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道【典优】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、Spark作为大数据处理框架,相比MapReduce的主要优势是?

A.基于内存计算,处理速度更快

B.只能处理结构化数据,效率更高

C.仅支持实时流数据处理,延迟更低

D.不需要分布式存储支持,部署更简单

【答案】:A

解析:本题考察Spark与MapReduce的核心差异。Spark采用内存计算模型,减少磁盘IO操作,因此处理速度远快于MapReduce的磁盘迭代计算;B选项错误,Spark支持结构化、半结构化、非结构化等多种数据类型;C选项错误,Spark既支持批处理也支持流处理(如StructuredStreaming);D选项错误,Spark依赖分布式存储(如HDFS)进行数据读写。因此正确答案为A。

2、大数据分析的最终目标是?

A.实现数据的高效存储

B.完成数据的可视化展示

C.从海量数据中发现有价值的信息

D.对数据进行采集和传输

【答案】:C

解析:本题考察大数据分析的核心目标。大数据分析的本质是从海量、多源数据中挖掘潜在规律、趋势或关联,最终实现价值发现(如用户画像、风险预测);数据存储、可视化、采集传输均是处理流程中的环节,而非最终目标。因此正确答案为C。

3、在大数据处理流程中,对数据进行缺失值填充、异常值处理的操作属于以下哪个环节?

A.数据清洗

B.数据集成

C.数据转换

D.数据挖掘

【答案】:A

解析:本题考察大数据预处理环节知识点。数据清洗是对原始数据进行去重、填补缺失值、处理异常值等操作,确保数据质量;数据集成是合并多源数据,数据转换是对数据格式/单位进行标准化,数据挖掘是从数据中提取有价值信息(属于分析阶段)。选项A为正确答案。

4、在大数据处理流程中,对原始数据进行去噪、填补缺失值等操作属于哪个环节?

A.数据采集

B.数据预处理

C.数据存储

D.数据分析

【答案】:B

解析:本题考察大数据处理流程知识点。数据预处理是对原始数据进行清洗(去噪、填补缺失值)、转换(格式标准化)、集成(多源数据合并)等操作的环节;A选项数据采集是获取原始数据;C选项数据存储是将处理后的数据持久化;D选项数据分析是基于预处理后的数据进行挖掘和建模。因此正确答案为B。

5、以下哪项是专业的大数据可视化工具?

A.Tableau

B.Python

C.Hive

D.MySQL

【答案】:A

解析:本题考察大数据工具类型知识点。Tableau是专业的交互式数据可视化工具,支持多维度图表生成;B选项Python是通用编程语言,需结合库(如Matplotlib)实现可视化;C选项Hive是基于Hadoop的数据仓库工具,用于数据存储与查询;D选项MySQL是关系型数据库管理系统,非可视化工具。因此正确答案为A。

6、以下哪项属于大数据中的非结构化数据?

A.关系型数据库中的用户信息表

B.医院的电子病历文本

C.企业ERP系统中的结构化销售数据

D.金融交易记录的结构化表格

【答案】:B

解析:本题考察大数据数据类型知识点。非结构化数据无固定格式和预定义结构,如文本、图片、音频等;结构化数据有明确字段和格式,如关系型数据库表、结构化表格。选项A、C、D均为结构化数据,选项B“电子病历文本”属于无固定格式的非结构化数据,因此正确答案为B。

7、Hadoop分布式文件系统(HDFS)的核心功能是?

A.存储海量结构化数据

B.负责分布式并行计算任务

C.对非结构化数据进行查询和分析

D.提供分布式数据存储与冗余备份

【答案】:D

解析:本题考察Hadoop生态系统中HDFS的作用。HDFS(HadoopDistributedFileSystem)是Hadoop生态的分布式存储组件,核心功能是通过分布式文件系统架构实现海量数据的存储与冗余备份,确保数据可靠性和高容错性。A选项“存储海量结构化数据”不准确,HDFS不限制数据结构,支持非结构化数据;B选项“分布式并行计算”是MapReduce的功能;C选项“非结构化数据查询”通常由Hive或HBase等工具实现。因此正确答案为D。

8、大数据的5V特征中,‘数据产生和处理的速度快’对应的是以下哪一项?

A.Volume(数据量巨大)

B.Variety(数据类型多样)

C.Veracity(数据真实性)

D.Velocity(数据速度)

【答案】:D

解析:本题考察大数据5V特征的定义。选项A对应‘Volume’,指数据规模庞大;选项B对应‘Variety’,指数据来源和格式多样;选项C对应‘Veracity’,指数据的真实性和准确性;选项D对应‘Velocity’,即数据产生和处理的速度快,因此正确答案

文档评论(0)

1亿VIP精品文档

相关文档