2026年国开电大大数据技术概论形考题库100道含答案(预热题).docxVIP

  • 0
  • 0
  • 约2.45万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道含答案(预热题).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.MapReduce

B.HDFS

C.YARN

D.Spark

【答案】:B

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为海量数据存储设计;A选项MapReduce是分布式计算框架,负责并行计算;C选项YARN是资源管理器,调度集群资源;D选项Spark是独立的内存计算框架,不属于Hadoop核心组件。正确答案为B。

2、以下哪项不属于大数据的4V特征?

A.Volume(规模)

B.Velocity(速度)

C.Variety(多样性)

D.Validity(有效性)

【答案】:D

解析:本题考察大数据的核心特征知识点。大数据的经典4V特征为Volume(规模大)、Velocity(速度快)、Variety(多样性)、Value(价值密度低),而Validity(有效性)并非大数据的特征,因此正确答案为D。

3、数据预处理的核心步骤不包括以下哪项?

A.数据清洗(去除噪声和缺失值)

B.数据挖掘(发现数据中的模式)

C.数据集成(合并多源数据)

D.数据转换(统一数据格式)

【答案】:B

解析:本题考察大数据处理中数据预处理的核心步骤知识点。数据预处理是对原始数据进行清洗、集成、转换、规约等操作以提升数据质量,选项A、C、D均属于数据预处理的核心步骤;而数据挖掘是在预处理后对数据进行深度分析、发现隐藏模式的技术,属于大数据分析阶段,不属于预处理。因此正确答案为B。

4、Hadoop生态系统中,用于分布式存储海量数据的核心组件是?

A.MapReduce

B.HDFS

C.YARN

D.HBase

【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(B)是Hadoop分布式文件系统,负责海量数据的分布式存储;MapReduce(A)是分布式计算框架;YARN(C)是资源管理器,负责集群资源调度;HBase(D)是分布式NoSQL数据库,用于随机读写海量结构化数据。因此正确答案为B。

5、以下哪项是大数据在医疗健康领域的典型应用?

A.智慧城市管理

B.精准医疗服务

C.智能交通调度

D.工业物联网监控

【答案】:B

解析:本题考察大数据应用场景知识点。精准医疗通过分析患者基因数据、病历数据等海量医疗信息,实现个性化诊断与治疗方案,属于大数据在医疗领域的典型应用。智慧城市管理(城市交通、安防等)、智能交通调度(交通流量分析)、工业物联网监控(设备状态监测)分别属于城市管理、交通、工业领域的应用,因此正确答案为B。

6、在大数据处理流程中,对原始数据进行去重、填补缺失值、处理异常值等操作属于哪个关键步骤?

A.数据清洗(DataCleaning)

B.数据集成(DataIntegration)

C.数据变换(DataTransformation)

D.数据规约(DataReduction)

【答案】:A

解析:本题考察大数据预处理的核心步骤。数据清洗是处理原始数据质量问题的第一步,主要包括去重、填补缺失值、处理异常值等操作;B选项数据集成是合并多源数据,C选项数据变换是转换数据格式或标准化,D选项数据规约是减少数据量,均不符合题意。

7、以下哪种数据类型属于大数据处理中的非结构化数据?

A.关系型数据库表中的结构化数据(如MySQL表格数据)

B.无固定格式的文本文件(如纯文本日志、小说等)

C.具有层级结构的XML/JSON数据(半结构化数据)

D.二维表格形式的Excel数据(结构化数据)

【答案】:B

解析:本题考察大数据的数据类型知识点。大数据数据类型分为三类:结构化数据(如关系型数据库表,选项A、D)、半结构化数据(如XML/JSON,选项C,具有一定结构但非严格关系模型)和非结构化数据(如文本文件、图片等,无固定格式和预定义结构)。选项B的无固定格式文本文件符合非结构化数据定义,因此正确答案为B。

8、数据预处理的主要目的不包括以下哪项?

A.去除噪声数据

B.整合多源数据

C.挖掘数据潜在价值

D.数据标准化处理

【答案】:C

解析:本题考察数据预处理的核心目的知识点。数据预处理是为后续分析做准备的关键步骤,包括数据清洗(去除噪声)、数据集成(整合多源数据)、数据转换(标准化处理)、数据规约(降维)等。而“挖掘数据潜在价值”属于数据分析阶段的任务,并非预处理的目的,因此C选项错误。

9、Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.H

文档评论(0)

1亿VIP精品文档

相关文档