2026年国开电大大数据技术形考题库100道附答案(培优a卷).docxVIP

  • 0
  • 0
  • 约2.43万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附答案(培优a卷).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、以下哪项不属于大数据的4V特征?

A.Volume(数据量)

B.Velocity(数据速度)

C.Variance(方差)

D.Value(数据价值)

【答案】:C

解析:大数据的4V特征标准定义为Volume(数据量)、Velocity(数据产生速度)、Variety(数据多样性)、Value(数据价值)。选项C的Variance(方差)是统计学概念,不属于大数据4V特征;其他选项均为4V核心特征,因此正确答案为C。

2、以下哪项不属于大数据的4V核心特征?

A.Veracity(真实性)

B.Volume(规模)

C.Velocity(速度)

D.Variety(多样性)

【答案】:A

解析:本题考察大数据4V特征知识点。大数据的4V标准定义为Volume(数据规模)、Velocity(数据产生和处理速度)、Variety(数据类型多样性)、Value(数据价值密度)。Veracity(数据真实性)通常是扩展的“5V”特征之一,不属于4V核心定义,因此答案为A。

3、在大数据安全防护中,以下哪项属于数据安全的威胁而非防护措施?

A.数据加密

B.数据篡改

C.访问控制

D.数据备份

【答案】:B

解析:本题考察大数据安全威胁与防护措施。数据篡改(B)是攻击者未经授权修改数据,属于安全威胁;数据加密(A)、访问控制(C)、数据备份(D)均为数据安全的防护措施。因此正确答案为B。

4、下列哪个工具通常用于实时采集分布式系统中的日志数据?

A.Sqoop

B.Flume

C.Kafka

D.Hive

【答案】:B

解析:本题考察大数据数据采集工具的功能,正确答案为B。Flume是Cloudera开源的分布式日志收集系统,专为实时采集分布式系统中的日志数据设计。A选项Sqoop主要用于Hadoop与关系型数据库之间的数据批量导入/导出;C选项Kafka是高吞吐量的分布式消息队列,主要用于数据传输和异步通信,而非实时日志采集;D选项Hive是基于Hadoop的数据仓库工具,用于数据存储和分析,不具备数据采集功能。

5、以下哪项是Hadoop生态系统中用于高吞吐率日志数据采集的工具?

A.Flume

B.Kafka

C.HDFS

D.MapReduce

【答案】:A

解析:本题考察Hadoop生态组件功能,Flume是Hadoop生态中专门用于日志数据采集的工具,支持高吞吐率、多源日志收集;Kafka是高吞吐消息队列系统,主要用于实时数据流传输;HDFS是分布式文件存储系统;MapReduce是批处理计算框架。因此正确答案为A。

6、以下哪种算法属于无监督学习中的聚类算法?

A.逻辑回归(监督分类算法)

B.决策树(监督分类/回归算法)

C.K-means(无监督聚类算法)

D.支持向量机(SVM,监督分类算法)

【答案】:C

解析:K-means通过距离度量将无标签数据自动划分成K个簇,属于无监督聚类算法;逻辑回归、决策树、SVM均为监督学习算法(需标签数据),用于分类或回归任务。因此答案为C。

7、以下哪种数据挖掘算法属于无监督学习中的聚类算法?

A.决策树

B.K-Means

C.线性回归

D.Apriori

【答案】:B

解析:本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法,通过距离度量将数据自动分组为不同簇;决策树常用于分类任务(有监督),线性回归用于回归预测(有监督),Apriori用于关联规则挖掘(无监督但非聚类)。因此选B。

8、以下哪项不属于数据预处理的步骤?

A.数据清洗

B.数据集成

C.数据挖掘

D.数据规约

【答案】:C

解析:本题考察大数据分析流程中数据预处理的知识点。数据预处理的核心步骤包括数据清洗(处理缺失值、异常值)、数据集成(合并多源数据)、数据转换(格式转换、归一化)、数据规约(降维、特征选择)。数据挖掘属于数据分析阶段的技术,通过算法从数据中提取有价值信息,不属于预处理步骤。正确答案为C。

9、在大数据技术应用中,用于实时流数据处理的开源框架是?

A.SparkStreaming

B.Hadoop

C.Hive

D.HBase

【答案】:A

解析:本题考察大数据实时处理框架知识点。SparkStreaming是Spark生态系统中处理实时流数据的组件,支持高吞吐量和低延迟;Hadoop是批处理框架,侧重离线数据处理;Hive是基于Hadoop的数据仓库工具,用于SQL式查询;HBase是分布式NoSQL数据库,侧重存储而非实时流处理。因此正确答案为A。

10、下列哪项是大数据的特征之一,指数据产生和

文档评论(0)

1亿VIP精品文档

相关文档