- 5
- 0
- 约9.12千字
- 约 13页
- 2025-10-22 发布于天津
- 举报
大数据建模练习试卷及答案
考试时间:______分钟总分:______分姓名:______
一、选择题(每题2分,共20分。请将正确选项的字母填在题号后的括号内)
1.下列哪一项不属于大数据的“4V”特征?
A.Volume(体量)
B.Velocity(速度)
C.Variety(多样性)
D.Veracity(真实性)
2.在大数据处理中,Hadoop生态系统中负责分布式存储的海量文件系统的组件是?
A.MapReduce
B.Hive
C.HDFS
D.YARN
3.以下哪种数据挖掘任务属于无监督学习?
A.分类
B.回归
C.聚类
D.序列模式挖掘
4.交叉验证(Cross-Validation)中,k折交叉验证通常要求k的取值范围是?
A.1≤kn
B.2≤k≤n
C.k=n
D.kn(n为数据集大小)
5.朴素贝叶斯分类器的基本假设是特征之间相互独立。这个假设在实际应用中往往难以满足,但其优点之一是?
A.模型复杂度低,计算效率高
B.对异常值不敏感
C.能处理高维数据
D.具有很好的泛化能力
6.下列哪种方法通常用于处理数据中的缺失值?
A.删除含有缺失值的记录
B.均值/中位数/众数填充
C.回归填充
D.以上都是
7.在特征工程中,“特征选择”的目标是?
A.生成新的特征
B.减少特征维度,去除冗余和不相关特征
C.对特征进行归一化处理
D.提高模型的解释性
8.评价分类模型性能的指标中,精确率(Precision)指的是?
A.真正例占所有正例的比例
B.真正例占所有实际正例(包括被错误分类为负例的)的比例
C.真正例占所有预测为正例(包括正确和错误预测为正例的)的比例
D.真正例占所有实际负例(包括被错误分类为正例的)的比例
9.下列关于Spark生态系统的描述,正确的是?
A.Spark只能进行批处理,不能进行流处理
B.SparkCore是Spark的基础,提供了RDD抽象和基本调度功能
C.SparkSQL主要用于构建复杂的图计算应用
D.SparkMLlib是一个独立的机器学习库,与SparkCore无关
10.在进行大规模数据集的模型训练时,为了避免内存溢出,可以采用哪种策略?
A.减小批量大小(BatchSize)
B.增加数据分区数
C.使用单线程执行
D.降低模型的复杂度
二、填空题(每空1分,共15分。请将答案填在横线上)
1.大数据技术通常需要处理的数据量达到______级别,对存储和计算能力提出了很高要求。
2.MapReduce模型中,Map阶段的输出通常被称为“键值对”形式的中间数据,其键通常是______。
3.决策树模型通过递归地划分数据空间,构建一个树形结构,其中每个非叶子节点代表一个______,每条边代表一个特征值。
4.在特征缩放中,标准化(Standardization)通常将数据转换成均值为0,标准差为1的分布,其公式为:x=(x-μ)/σ,其中μ代表______,σ代表______。
5.评价回归模型性能的常用指标包括均方误差(MSE)、均方根误差(RMSE)和______。
6.对于不平衡数据集,常用的处理方法包括过采样(Oversampling)、欠采样(Undersampling)以及使用______等。
7.在大数据处理流程中,数据清洗是______的关键步骤,直接影响后续分析的质量。
8.Hive是一个构建在Hadoop之上的数据仓库工具,它使用______语言进行数据查询和分析。
9.SparkStreaming是Spark生态系统中的一个组件,它能够实时处理有界或无界的______数据流。
10.机器学习模型评估中,除了关注模型在训练集上的表现,更重要的是评估其在______上的泛化能力。
三、简答题(每题5分,共20分)
1.简述大数据分析相对于传统数据分析的主要特点。
2.解释什么是数据预处理,并列举至少三种常见的数据预处理任务及其目的。
3.比较监督学习算法和非监督学习算法的主要区别。
4.什么是过拟合(Overfitting)?简述至少两种防止过拟合的常用方法。
四、计算题(每题10分
原创力文档

文档评论(0)