2026年国开电大大数据技术形考题库100道附答案（培优a卷）.docxVIP

下载本文档

0
0
约2.43万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道附答案（培优a卷）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、以下哪项不属于大数据的4V特征？

A.Volume（数据量）

B.Velocity（数据速度）

C.Variance（方差）

D.Value（数据价值）

【答案】：C

解析：大数据的4V特征标准定义为Volume（数据量）、Velocity（数据产生速度）、Variety（数据多样性）、Value（数据价值）。选项C的Variance（方差）是统计学概念，不属于大数据4V特征；其他选项均为4V核心特征，因此正确答案为C。

2、以下哪项不属于大数据的4V核心特征？

A.Veracity（真实性）

B.Volume（规模）

C.Velocity（速度）

D.Variety（多样性）

【答案】：A

解析：本题考察大数据4V特征知识点。大数据的4V标准定义为Volume（数据规模）、Velocity（数据产生和处理速度）、Variety（数据类型多样性）、Value（数据价值密度）。Veracity（数据真实性）通常是扩展的“5V”特征之一，不属于4V核心定义，因此答案为A。

3、在大数据安全防护中，以下哪项属于数据安全的威胁而非防护措施？

A.数据加密

B.数据篡改

C.访问控制

D.数据备份

【答案】：B

解析：本题考察大数据安全威胁与防护措施。数据篡改（B）是攻击者未经授权修改数据，属于安全威胁；数据加密（A）、访问控制（C）、数据备份（D）均为数据安全的防护措施。因此正确答案为B。

4、下列哪个工具通常用于实时采集分布式系统中的日志数据？

A.Sqoop

B.Flume

C.Kafka

D.Hive

【答案】：B

解析：本题考察大数据数据采集工具的功能，正确答案为B。Flume是Cloudera开源的分布式日志收集系统，专为实时采集分布式系统中的日志数据设计。A选项Sqoop主要用于Hadoop与关系型数据库之间的数据批量导入/导出；C选项Kafka是高吞吐量的分布式消息队列，主要用于数据传输和异步通信，而非实时日志采集；D选项Hive是基于Hadoop的数据仓库工具，用于数据存储和分析，不具备数据采集功能。

5、以下哪项是Hadoop生态系统中用于高吞吐率日志数据采集的工具？

A.Flume

B.Kafka

C.HDFS

D.MapReduce

【答案】：A

解析：本题考察Hadoop生态组件功能，Flume是Hadoop生态中专门用于日志数据采集的工具，支持高吞吐率、多源日志收集；Kafka是高吞吐消息队列系统，主要用于实时数据流传输；HDFS是分布式文件存储系统；MapReduce是批处理计算框架。因此正确答案为A。

6、以下哪种算法属于无监督学习中的聚类算法？

A.逻辑回归（监督分类算法）

B.决策树（监督分类/回归算法）

C.K-means（无监督聚类算法）

D.支持向量机（SVM，监督分类算法）

【答案】：C

解析：K-means通过距离度量将无标签数据自动划分成K个簇，属于无监督聚类算法；逻辑回归、决策树、SVM均为监督学习算法（需标签数据），用于分类或回归任务。因此答案为C。

7、以下哪种数据挖掘算法属于无监督学习中的聚类算法？

A.决策树

B.K-Means

C.线性回归

D.Apriori

【答案】：B

解析：本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法，通过距离度量将数据自动分组为不同簇；决策树常用于分类任务（有监督），线性回归用于回归预测（有监督），Apriori用于关联规则挖掘（无监督但非聚类）。因此选B。

8、以下哪项不属于数据预处理的步骤？

A.数据清洗

B.数据集成

C.数据挖掘

D.数据规约

【答案】：C

解析：本题考察大数据分析流程中数据预处理的知识点。数据预处理的核心步骤包括数据清洗（处理缺失值、异常值）、数据集成（合并多源数据）、数据转换（格式转换、归一化）、数据规约（降维、特征选择）。数据挖掘属于数据分析阶段的技术，通过算法从数据中提取有价值信息，不属于预处理步骤。正确答案为C。

9、在大数据技术应用中，用于实时流数据处理的开源框架是？

A.SparkStreaming

B.Hadoop

C.Hive

D.HBase

【答案】：A

解析：本题考察大数据实时处理框架知识点。SparkStreaming是Spark生态系统中处理实时流数据的组件，支持高吞吐量和低延迟；Hadoop是批处理框架，侧重离线数据处理；Hive是基于Hadoop的数据仓库工具，用于SQL式查询；HBase是分布式NoSQL数据库，侧重存储而非实时流处理。因此正确答案为A。

2026年国开电大大数据技术形考题库100道附答案（培优a卷）.docxVIP

2026年国开电大大数据技术形考题库100道附答案（培优a卷）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档