- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘笔试题
一、选择题(每题3分,共15分)
在数据挖掘的预处理阶段,以下哪种方法不属于缺失值处理策略?()
A.均值填充B.中位数填充C.随机森林预测填充D.直接删除所有含缺失值的样本(无特殊说明时)
下列算法中,属于无监督学习算法的是()
A.逻辑回归B.K-means聚类C.支持向量机(SVM)D.决策树分类
在评估分类模型性能时,当数据存在严重不平衡(如正样本占比仅1%),以下哪个评估指标更能反映模型真实性能?()
A.准确率B.精确率C.召回率D.F1分数
关于关联规则挖掘中的支持度(Support)和置信度(Confidence),以下说法正确的是()
A.支持度越高,规则越有价值B.置信度越高,规则的可靠性越强
C.支持度和置信度始终正相关D.最小支持度和最小置信度的设置不影响挖掘结果
下列关于主成分分析(PCA)的描述,错误的是()
A.PCA可用于数据降维B.PCA会改变数据的原有特征含义
C.PCA的核心是寻找数据协方差矩阵的特征向量D.PCA需要对数据进行标准化预处理(通常情况下)
二、填空题(每空2分,共20分)
数据挖掘常用的流程模型是(CRISP-DM),它包含业务理解、数据理解、数据准备、建模、评估和部署六个阶段。
在聚类算法中,(K-means)算法需要预先指定聚类数量,而(DBSCAN)算法无需指定聚类数量,而是通过密度来划分簇。
决策树算法中,常用的特征选择准则有(信息增益)、(信息增益比)和基尼系数。
过拟合是机器学习和数据挖掘中常见的问题,解决过拟合的常用方法有(增加训练数据量)、(正则化)、(剪枝,针对决策树等)等(任写两种即可)。
在协同过滤推荐算法中,根据推荐依据的不同,可分为(基于用户的协同过滤)和(基于物品的协同过滤)两类。
数据离散化的常用方法包括(等宽离散化)和(等频离散化)(任写两种即可)。
三、简答题(每题10分,共30分)
简述K-means聚类算法的基本步骤,并指出该算法的主要缺点。
说明决策树算法与随机森林算法的区别与联系,以及随机森林为何能降低过拟合风险。
什么是关联规则挖掘?请举例说明支持度和置信度在关联规则中的计算方式(假设一个简单的交易数据集)。
四、计算题(每题17.5分,共35分)
已知某数据集包含10个样本,每个样本有2个特征,数据如下表所示。请使用欧氏距离计算样本1(1,2)与样本2(3,4)、样本3(2,1)之间的距离,并判断样本1与哪个样本更相似。
样本编号
特征1
特征2
1
1
2
2
3
4
3
2
1
现有一个二分类问题的数据集,部分样本的真实标签(Y)和模型预测概率(P,预测为正类的概率)如下表所示。若设定分类阈值为0.5(即P≥0.5预测为正类,P0.5预测为负类),请计算该模型的精确率、召回率和F1分数。
样本
真实标签(Y)
预测概率(P)
1
1
0.6
2
1
0.4
3
0
0.7
4
0
0.3
5
1
0.8
6
0
0.2
数据挖掘笔试题答案
一、选择题(每题3分,共15分)
D(解析:直接删除所有含缺失值样本需谨慎,仅在缺失值样本占比极低且对整体数据影响可忽略时使用,并非常规缺失值处理策略;A、B、C均为常见的缺失值填充方法)
B(解析:A、C、D均为监督学习算法,需依赖带标签的训练数据;K-means无需标签,通过数据自身分布聚类,属于无监督学习)
D(解析:数据不平衡时,准确率易受多数类影响,无法反映模型对少数类的预测能力;精确率关注预测为正类的样本中真实正类的比例,召回率关注真实正类被正确预测的比例,F1分数是精确率和召回率的调和平均数,能综合两者反映模型整体性能)
B(解析:支持度高仅说明规则涉及的项集出现频率高,不一定有实际价值,A错误;置信度越高,说明在前提成立的情况下结论成立的概率越高,规则可靠性越强,B正确;支持度和置信度无必然正相关,C错误;最小支持度和最小置信度直接决定挖掘出的关联规则数量和质量,D错误)
B(解析:PCA通过线性变换将数据映射到新的特征空间,新特征是原特征的线性组合,会改变原特征含义,B错误;A、C、D均为PCA的正确描述,PCA降维需基于数据的协方差矩阵,且标准化能消除量纲对结果的影响)
二、填空题(每空2分,共20分)
CRISP-DM
K-means;DBSCAN
信息增益;信息增益比(顺序可互换)
增加训练数据量;正则化(或剪枝、集成学习等,任写两种合理答案即可)
基于用户的协同过滤;基于物品的协同过滤
文档评论(0)