2026年国开电大大数据技术概论形考题库100道含答案【预热题】.docxVIP

  • 0
  • 0
  • 约2.44万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道含答案【预热题】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、在大数据处理流程中,对原始数据进行去噪、填补缺失值等操作属于哪个环节?

A.数据采集

B.数据预处理

C.数据存储

D.数据分析

【答案】:B

解析:本题考察大数据处理流程知识点。数据预处理是对原始数据进行清洗(去噪、填补缺失值)、转换(格式标准化)、集成(多源数据合并)等操作的环节;A选项数据采集是获取原始数据;C选项数据存储是将处理后的数据持久化;D选项数据分析是基于预处理后的数据进行挖掘和建模。因此正确答案为B。

2、Hadoop分布式文件系统(HDFS)的核心功能是?

A.存储海量结构化数据

B.负责分布式并行计算任务

C.对非结构化数据进行查询和分析

D.提供分布式数据存储与冗余备份

【答案】:D

解析:本题考察Hadoop生态系统中HDFS的作用。HDFS(HadoopDistributedFileSystem)是Hadoop生态的分布式存储组件,核心功能是通过分布式文件系统架构实现海量数据的存储与冗余备份,确保数据可靠性和高容错性。A选项“存储海量结构化数据”不准确,HDFS不限制数据结构,支持非结构化数据;B选项“分布式并行计算”是MapReduce的功能;C选项“非结构化数据查询”通常由Hive或HBase等工具实现。因此正确答案为D。

3、在大数据预处理中,用于处理数据缺失值的常用方法是?

A.标准化

B.归一化

C.插值法

D.数据采集

【答案】:C

解析:本题考察大数据预处理技术。标准化和归一化属于数据转换(特征缩放)方法,用于统一数据量纲;数据采集是数据获取阶段操作;插值法(如线性插值、均值填充)通过已有数据估算缺失值,是处理缺失值的核心方法。因此正确答案为C。

4、以下哪项属于大数据可视化工具?

A.Photoshop

B.Tableau

C.MySQL

D.WinRAR

【答案】:B

解析:本题考察大数据可视化工具的识别。大数据可视化工具用于将复杂数据转化为直观图表,选项中:A.Photoshop是图像编辑软件,非可视化工具;B.Tableau是专业的交互式数据可视化工具,支持多种图表类型;C.MySQL是关系型数据库管理系统,用于数据存储;D.WinRAR是压缩软件,均不符合。因此正确答案为B。

5、Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.YARN(资源管理器)

B.HDFS(分布式文件系统)

C.MapReduce(分布式计算框架)

D.Spark(内存计算引擎)

【答案】:B

解析:本题考察Hadoop生态系统的核心组件。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责数据的存储;A选项YARN是资源管理器,C选项MapReduce是分布式计算框架,D选项Spark是独立的内存计算框架,均非存储组件。

6、以下哪个场景最能体现大数据技术的应用价值?

A.某学校人工统计学生成绩并记录在纸质表格中

B.某电商平台根据用户浏览和购买历史推荐个性化商品

C.某工厂仅依靠人工经验调整生产线参数

D.某图书馆手工整理书籍借阅卡片

【答案】:B

解析:本题考察大数据应用场景知识点。大数据技术通过分析海量用户行为数据(如浏览、购买历史),实现精准推荐。选项A、C、D均为传统人工操作,未体现大数据技术的自动化、智能化分析能力。选项B中电商平台利用用户数据推荐商品,是大数据在精准营销中的典型应用,因此正确答案为B。

7、大数据的4V特征中,“Volume”指的是数据的什么特性?

A.数据量巨大

B.数据处理速度快

C.数据类型多样

D.数据价值密度高

【答案】:A

解析:本题考察大数据的基本特征知识点。大数据的4V特征包括:Volume(容量/数据量巨大)、Velocity(速度/处理速度快)、Variety(多样性/数据类型多样)、Value(价值/低价值密度但蕴含潜在价值)。选项B对应Velocity,选项C对应Variety,选项D描述错误(大数据通常低价值密度),因此正确答案为A。

8、以下哪个不是Hadoop生态系统的核心组件?

A.HDFS

B.MapReduce

C.MySQL

D.YARN

【答案】:C

解析:本题考察Hadoop生态系统知识点。Hadoop生态系统的核心组件包括HDFS(分布式文件系统)、MapReduce(分布式计算框架)、YARN(资源管理器)等。而MySQL是独立的关系型数据库管理系统,不属于Hadoop生态系统。因此正确答案为C。

9、以下哪项是Hadoop生态系统中负责分布式存储的核心组件?

A.HDFS

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档