- 0
- 0
- 约2.43万字
- 约 39页
- 2026-03-09 发布于河南
- 举报
2026年国开电大大数据技术形考题库100道
第一部分单选题(100题)
1、以下哪项不属于大数据的4V特征?
A.Volume(数据量)
B.Velocity(数据速度)
C.Variance(方差)
D.Value(数据价值)
【答案】:C
解析:大数据的4V特征标准定义为Volume(数据量)、Velocity(数据产生速度)、Variety(数据多样性)、Value(数据价值)。选项C的Variance(方差)是统计学概念,不属于大数据4V特征;其他选项均为4V核心特征,因此正确答案为C。
2、以下哪项不属于大数据的4V核心特征?
A.Veracity(真实性)
B.Volume(规模)
C.Velocity(速度)
D.Variety(多样性)
【答案】:A
解析:本题考察大数据4V特征知识点。大数据的4V标准定义为Volume(数据规模)、Velocity(数据产生和处理速度)、Variety(数据类型多样性)、Value(数据价值密度)。Veracity(数据真实性)通常是扩展的“5V”特征之一,不属于4V核心定义,因此答案为A。
3、在大数据安全防护中,以下哪项属于数据安全的威胁而非防护措施?
A.数据加密
B.数据篡改
C.访问控制
D.数据备份
【答案】:B
解析:本题考察大数据安全威胁与防护措施。数据篡改(B)是攻击者未经授权修改数据,属于安全威胁;数据加密(A)、访问控制(C)、数据备份(D)均为数据安全的防护措施。因此正确答案为B。
4、下列哪个工具通常用于实时采集分布式系统中的日志数据?
A.Sqoop
B.Flume
C.Kafka
D.Hive
【答案】:B
解析:本题考察大数据数据采集工具的功能,正确答案为B。Flume是Cloudera开源的分布式日志收集系统,专为实时采集分布式系统中的日志数据设计。A选项Sqoop主要用于Hadoop与关系型数据库之间的数据批量导入/导出;C选项Kafka是高吞吐量的分布式消息队列,主要用于数据传输和异步通信,而非实时日志采集;D选项Hive是基于Hadoop的数据仓库工具,用于数据存储和分析,不具备数据采集功能。
5、以下哪项是Hadoop生态系统中用于高吞吐率日志数据采集的工具?
A.Flume
B.Kafka
C.HDFS
D.MapReduce
【答案】:A
解析:本题考察Hadoop生态组件功能,Flume是Hadoop生态中专门用于日志数据采集的工具,支持高吞吐率、多源日志收集;Kafka是高吞吐消息队列系统,主要用于实时数据流传输;HDFS是分布式文件存储系统;MapReduce是批处理计算框架。因此正确答案为A。
6、以下哪种算法属于无监督学习中的聚类算法?
A.逻辑回归(监督分类算法)
B.决策树(监督分类/回归算法)
C.K-means(无监督聚类算法)
D.支持向量机(SVM,监督分类算法)
【答案】:C
解析:K-means通过距离度量将无标签数据自动划分成K个簇,属于无监督聚类算法;逻辑回归、决策树、SVM均为监督学习算法(需标签数据),用于分类或回归任务。因此答案为C。
7、以下哪种数据挖掘算法属于无监督学习中的聚类算法?
A.决策树
B.K-Means
C.线性回归
D.Apriori
【答案】:B
解析:本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法,通过距离度量将数据自动分组为不同簇;决策树常用于分类任务(有监督),线性回归用于回归预测(有监督),Apriori用于关联规则挖掘(无监督但非聚类)。因此选B。
8、以下哪项不属于数据预处理的步骤?
A.数据清洗
B.数据集成
C.数据挖掘
D.数据规约
【答案】:C
解析:本题考察大数据分析流程中数据预处理的知识点。数据预处理的核心步骤包括数据清洗(处理缺失值、异常值)、数据集成(合并多源数据)、数据转换(格式转换、归一化)、数据规约(降维、特征选择)。数据挖掘属于数据分析阶段的技术,通过算法从数据中提取有价值信息,不属于预处理步骤。正确答案为C。
9、在大数据技术应用中,用于实时流数据处理的开源框架是?
A.SparkStreaming
B.Hadoop
C.Hive
D.HBase
【答案】:A
解析:本题考察大数据实时处理框架知识点。SparkStreaming是Spark生态系统中处理实时流数据的组件,支持高吞吐量和低延迟;Hadoop是批处理框架,侧重离线数据处理;Hive是基于Hadoop的数据仓库工具,用于SQL式查询;HBase是分布式NoSQL数据库,侧重存储而非实时流处理。因此正确答案为A。
10、下列哪项是大数据的特征之一,指数据产生和
原创力文档

文档评论(0)