2026年大数据分析与数据挖掘技术模拟题及答案详解.docxVIP

  • 1
  • 0
  • 约6.55千字
  • 约 15页
  • 2026-03-28 发布于四川
  • 举报

2026年大数据分析与数据挖掘技术模拟题及答案详解.docx

2026年大数据分析与数据挖掘技术模拟题及答案详解

一、单项选择题(每题2分,共20分)

1.以下数据清洗操作中,用于处理数据缺失值的常用方法是:

A.主成分分析(PCA)

B.均值填补

C.归一化处理

D.卡方检验

2.在分类任务中,若目标变量是三分类(类别A、B、C),且样本分布为A:70%、B:20%、C:10%,则以下评估指标中最不适合的是:

A.准确率(Accuracy)

B.F1score(宏平均)

C.ROCAUC(多类扩展)

D.召回率(Recall)针对类别C

3.关于kmeans聚类算法,以下描述错误的是:

A.初始质心的选择会影响最终聚类结果

B.适用于非凸形状的簇结构

C.目标函数是最小化各样本到其所属簇质心的欧氏距离平方和

D.对异常值敏感

4.SparkRDD的transformation操作中,以下属于宽依赖(shuffle操作)的是:

A.map()

B.filter()

C.groupByKey()

D.flatMap()

5.在关联规则挖掘中,若某规则的支持度为0.3,置信度为0.6,提升度(Lift)为1.2,则以下推论正确的是:

A.该规则的提升度大于1,说明前件和后件之间存在正相关

B.支持度0.3表示30%的事务同时包含前件和后件

C.置信度0.6表示前件出现时后件出现的概率比后件单独出现

文档评论(0)

1亿VIP精品文档

相关文档