2026年国开电大大数据技术形考题库100道精选答案.docxVIP

  • 2
  • 0
  • 约2.43万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道精选答案.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop分布式文件系统(HDFS)采用副本机制的主要目的是?

A.提高数据存储容量

B.保障数据可靠性和读取效率

C.加速数据传输速度

D.降低数据压缩成本

【答案】:B

解析:本题考察Hadoop分布式文件系统(HDFS)的核心机制知识点。HDFS的副本机制是指将数据在多个数据节点上存储多个副本(默认3个),其核心目的包括:①数据可靠性:当单个节点故障时,副本可替代故障节点数据,避免数据丢失;②读取效率:多个副本可并行读取,提升数据读取速度。选项A“存储容量”并非核心目的(副本会占用额外空间);选项C“数据传输速度”与副本机制无关;选项D“数据压缩成本”与副本机制无关。因此正确答案为B。

2、大数据的5V特征不包括以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Validity(有效性)

D.Variety(多样性)

【答案】:C

解析:本题考察大数据5V特征知识点。大数据的5V特征标准定义为Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值)、Veracity(真实性),而Validity(有效性)并非大数据5V特征之一,因此正确答案为C。

3、在大数据预处理流程中,‘处理数据中存在的重复记录’属于以下哪种操作?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理的核心操作。数据预处理流程包括数据清洗、集成、转换、规约等环节:数据清洗(选项A)的目标是去除噪声、异常值、重复值等,因此“处理重复记录”属于数据清洗;数据集成(B)是合并多源数据;数据转换(C)是对数据格式/结构进行转换(如标准化);数据规约(D)是通过降维、采样等减小数据规模。因此“处理重复记录”属于数据清洗操作。

4、大数据的4V特征中,不包括以下哪一项?

A.Volume(数据量大)

B.Velocity(处理速度快)

C.Veracity(数据真实性)

D.Variety(数据类型多样)

【答案】:C

解析:本题考察大数据的4V特征知识点。大数据的4V特征定义为:Volume(数据量大,通常以PB/EB级衡量)、Velocity(处理速度快,需实时或近实时处理)、Variety(数据类型多样,包括结构化、半结构化、非结构化数据)、Value(价值密度低,需挖掘潜在价值)。而Veracity(数据真实性)属于数据质量维度,并非4V核心特征,因此答案为C。

5、以下哪项是Hadoop分布式文件系统的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.Spark

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,负责数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Spark是独立的内存计算引擎,因此答案为A。

6、大数据的5V特征中,不包含以下哪一项?

A.Volume(数据量大)

B.Velocity(处理速度快)

C.Variety(数据多样性)

D.Validity(数据有效性)

【答案】:D

解析:本题考察大数据的5V核心特征。大数据的5V特征为:Volume(数据量大)、Velocity(处理速度快)、Variety(数据多样性)、Veracity(数据真实性)、Value(价值密度低)。选项D的“Validity(数据有效性)”不属于5V特征,因此正确答案为D。

7、在大数据数据预处理流程中,用于处理数据缺失值、异常值的关键步骤是?

A.数据清洗

B.数据集成

C.数据变换

D.数据规约

【答案】:A

解析:本题考察大数据数据预处理步骤知识点。数据清洗是预处理的核心步骤,主要负责处理数据中的缺失值、异常值、重复值等问题;B选项数据集成是合并多个数据源;C选项数据变换是对数据格式、类型等进行转换;D选项数据规约是通过降维、压缩等方式减少数据规模。因此正确答案为A。

8、以下哪项不属于常用的大数据可视化工具?

A.Tableau

B.PowerBI

C.Hadoop

D.ECharts

【答案】:C

解析:本题考察大数据可视化工具知识点,Tableau和PowerBI是专业商业智能可视化工具,ECharts是基于JavaScript的前端可视化库;而Hadoop是分布式计算与存储框架,不属于可视化工具,因此正确答案为C。

9、Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.YARN

C.

文档评论(0)

1亿VIP精品文档

相关文档