2026年国开电大大数据技术概论形考题库100道含答案（预热题）.docxVIP

下载本文档

0
0
约2.45万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道含答案（预热题）.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中，负责分布式文件存储的核心组件是？

A.MapReduce

B.HDFS

C.YARN

D.Spark

【答案】：B

解析：本题考察Hadoop生态系统组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，专为海量数据存储设计；A选项MapReduce是分布式计算框架，负责并行计算；C选项YARN是资源管理器，调度集群资源；D选项Spark是独立的内存计算框架，不属于Hadoop核心组件。正确答案为B。

2、以下哪项不属于大数据的4V特征？

A.Volume（规模）

B.Velocity（速度）

C.Variety（多样性）

D.Validity（有效性）

【答案】：D

解析：本题考察大数据的核心特征知识点。大数据的经典4V特征为Volume（规模大）、Velocity（速度快）、Variety（多样性）、Value（价值密度低），而Validity（有效性）并非大数据的特征，因此正确答案为D。

3、数据预处理的核心步骤不包括以下哪项？

A.数据清洗（去除噪声和缺失值）

B.数据挖掘（发现数据中的模式）

C.数据集成（合并多源数据）

D.数据转换（统一数据格式）

【答案】：B

解析：本题考察大数据处理中数据预处理的核心步骤知识点。数据预处理是对原始数据进行清洗、集成、转换、规约等操作以提升数据质量，选项A、C、D均属于数据预处理的核心步骤；而数据挖掘是在预处理后对数据进行深度分析、发现隐藏模式的技术，属于大数据分析阶段，不属于预处理。因此正确答案为B。

4、Hadoop生态系统中，用于分布式存储海量数据的核心组件是？

A.MapReduce

B.HDFS

C.YARN

D.HBase

【答案】：B

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（B）是Hadoop分布式文件系统，负责海量数据的分布式存储；MapReduce（A）是分布式计算框架；YARN（C）是资源管理器，负责集群资源调度；HBase（D）是分布式NoSQL数据库，用于随机读写海量结构化数据。因此正确答案为B。

5、以下哪项是大数据在医疗健康领域的典型应用？

A.智慧城市管理

B.精准医疗服务

C.智能交通调度

D.工业物联网监控

【答案】：B

解析：本题考察大数据应用场景知识点。精准医疗通过分析患者基因数据、病历数据等海量医疗信息，实现个性化诊断与治疗方案，属于大数据在医疗领域的典型应用。智慧城市管理（城市交通、安防等）、智能交通调度（交通流量分析）、工业物联网监控（设备状态监测）分别属于城市管理、交通、工业领域的应用，因此正确答案为B。

6、在大数据处理流程中，对原始数据进行去重、填补缺失值、处理异常值等操作属于哪个关键步骤？

A.数据清洗（DataCleaning）

B.数据集成（DataIntegration）

C.数据变换（DataTransformation）

D.数据规约（DataReduction）

【答案】：A

解析：本题考察大数据预处理的核心步骤。数据清洗是处理原始数据质量问题的第一步，主要包括去重、填补缺失值、处理异常值等操作；B选项数据集成是合并多源数据，C选项数据变换是转换数据格式或标准化，D选项数据规约是减少数据量，均不符合题意。

7、以下哪种数据类型属于大数据处理中的非结构化数据？

A.关系型数据库表中的结构化数据（如MySQL表格数据）

B.无固定格式的文本文件（如纯文本日志、小说等）

C.具有层级结构的XML/JSON数据（半结构化数据）

D.二维表格形式的Excel数据（结构化数据）

【答案】：B

解析：本题考察大数据的数据类型知识点。大数据数据类型分为三类：结构化数据（如关系型数据库表，选项A、D）、半结构化数据（如XML/JSON，选项C，具有一定结构但非严格关系模型）和非结构化数据（如文本文件、图片等，无固定格式和预定义结构）。选项B的无固定格式文本文件符合非结构化数据定义，因此正确答案为B。

8、数据预处理的主要目的不包括以下哪项？

A.去除噪声数据

B.整合多源数据

C.挖掘数据潜在价值

D.数据标准化处理

【答案】：C

解析：本题考察数据预处理的核心目的知识点。数据预处理是为后续分析做准备的关键步骤，包括数据清洗（去除噪声）、数据集成（整合多源数据）、数据转换（标准化处理）、数据规约（降维）等。而“挖掘数据潜在价值”属于数据分析阶段的任务，并非预处理的目的，因此C选项错误。

9、Hadoop生态系统中，负责分布式存储海量数据的核心组件是？

2026年国开电大大数据技术概论形考题库100道含答案（预热题）.docxVIP

2026年国开电大大数据技术概论形考题库100道含答案（预热题）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档