2026年国开电大大数据技术形考题库100道含答案【轻巧夺冠】.docxVIP

下载本文档

1
0
约2.45万字
约 38页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道含答案【轻巧夺冠】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在机器学习中，用于预测类别标签（如“垃圾邮件/非垃圾邮件”）的算法是？

A.逻辑回归（LogisticRegression）

B.线性回归（LinearRegression）

C.K-means聚类算法

D.PCA（主成分分析）降维算法

【答案】：A

解析：本题考察机器学习算法类型知识点。逻辑回归是典型的分类算法，用于预测离散类别；线性回归是回归算法（预测连续值）；K-means是无监督聚类算法（无标签数据分组）；PCA是无监督降维算法（减少特征维度），均不用于分类任务。

2、以下哪项属于大数据处理中的数据预处理步骤？

A.数据清洗（去除噪声、缺失值等）

B.数据挖掘（发现数据中的隐藏模式）

C.数据可视化（将数据转化为图表展示）

D.模型训练（构建预测模型）

【答案】：A

解析：本题考察大数据预处理知识点。数据预处理是数据进入分析流程前的关键步骤，包括数据清洗（处理缺失值、异常值）、数据集成（合并多源数据）、数据变换（标准化、归一化）、数据规约（降维、压缩）等。数据挖掘（B）、数据可视化（C）、模型训练（D）均属于数据分析或模型构建阶段，不属于预处理。因此答案为A。

3、以下哪项是Hadoop分布式文件系统的核心组件？

A.HDFS

B.MapReduce

C.YARN

D.Spark

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（HadoopDistributedFileSystem）是Hadoop分布式文件系统，负责数据的分布式存储；MapReduce是分布式计算框架，YARN是资源管理器，Spark是独立的内存计算引擎，因此答案为A。

4、Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS（分布式文件系统）

B.MapReduce（计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：A

解析：本题考察Hadoop生态组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责海量数据的分布式存储；MapReduce是分布式计算框架，YARN负责集群资源管理，Hive提供数据仓库查询接口。因此正确答案为A。

5、以下哪种数据库不属于大数据存储的典型技术？

A.HBase

B.MongoDB

C.MySQL

D.HDFS

【答案】：C

解析：本题考察大数据存储技术知识点。HBase（选项A）是基于HDFS的分布式NoSQL数据库，MongoDB（选项B）是文档型NoSQL数据库，均为大数据常用存储工具；HDFS（选项D）是Hadoop生态的分布式文件系统，用于存储海量数据。而MySQL（选项C）是传统关系型数据库，通常用于结构化数据的中小规模存储，不属于大数据典型存储技术。正确答案为C。

6、大数据的哪个特征强调数据产生和处理的速度快，例如实时性数据处理？

A.Volume（数据规模大）

B.Velocity（数据处理速度快）

C.Variety（数据类型多样）

D.Value（数据价值密度低）

【答案】：B

解析：本题考察大数据的5V特征知识点。选项A的Volume指数据规模庞大，不符合速度快的描述；选项C的Variety指数据类型多样（结构化、半结构化、非结构化），与速度无关；选项D的Value强调数据价值密度低，需通过挖掘提取价值，也不涉及速度；选项B的Velocity明确指数据产生和处理的速度快，符合题干中“实时性数据处理”的描述，因此正确答案为B。

7、以下哪项是大数据在‘精准营销’场景下的典型应用？

A.电商平台根据用户历史购物行为推荐商品

B.医院利用大数据分析医疗影像诊断疾病

C.交通部门通过大数据监控城市实时路况

D.工业企业通过物联网设备监控设备运行状态

【答案】：A

解析：本题考察大数据应用场景知识点。精准营销的核心是基于用户数据（如行为、偏好）实现个性化推荐。选项A中电商平台通过用户历史购物行为分析实现商品推荐，属于典型的精准营销应用；B属于医疗大数据应用，C属于智慧城市交通管理，D属于工业物联网监控，均不属于精准营销场景，正确答案为A。

8、以下哪个大数据处理框架主要用于实时流数据处理？

A.Hadoop

B.Spark

C.Flink

D.HBase

【答案】：C

解析：本题考察主流大数据处理框架的应用场景。Hadoop是分布式存储与批处理框架（MapReduce）；Spark是内存计算框架，支持批处理和流处理（SparkStreaming）；Flink是专为实时流数据处理设计的开源框架，具有低延迟

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道含答案【轻巧夺冠】.docxVIP