- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘工程师笔试题及参考答案
一、选择题(每题5分,共30分)
以下哪种算法不属于无监督学习?()
A.K-Means聚类B.主成分分析(PCA)C.决策树分类D.关联规则挖掘(Apriori)
在决策树构建过程中,用于选择最优分裂属性的指标不包括()
A.信息增益B.基尼系数C.欧氏距离D.信息增益比
关于过拟合问题,以下说法错误的是()
A.过拟合是模型在训练集上表现好,测试集上表现差
B.增加训练数据量可能缓解过拟合
C.正则化(L1/L2)的核心是增加模型复杂度
D.决策树剪枝是解决过拟合的常用方法
下列关于协同过滤推荐算法的描述,正确的是()
A.基于内容的推荐属于协同过滤的一种
B.物品协同过滤是计算用户之间的相似度
C.协同过滤不需要依赖物品或用户的特征信息
D.冷启动问题对协同过滤算法无影响
在关联规则挖掘中,“支持度”的定义是()
A.包含项集A的事务中同时包含项集B的比例
B.同时包含项集A和B的事务占总事务的比例
C.项集A在总事务中出现的频率
D.项集B在包含A的事务中出现的条件概率
关于PCA降维,以下说法正确的是()
A.PCA会改变数据的原始分布特征
B.PCA的核心是找到数据方差最大的投影方向
C.降维后的特征个数必须小于原始特征个数
D.PCA可以处理非线性数据的降维需求
二、填空题(每题4分,共20分)
混淆矩阵中,“精确率(Precision)”的计算公式是____________________,“召回率(Recall)”的计算公式是____________________。
K-Means算法中,K值的选择常用方法有____________________和____________________(至少写出两种)。
逻辑回归模型通过____________________函数将线性回归的输出映射到[0,1]区间,其损失函数常用____________________。
数据预处理中,处理缺失值的常用方法包括____________________、和(至少写出三种)。
随机森林算法通过____________________和____________________两种方式降低单棵决策树的方差,提升模型泛化能力。
三、简答题(每题10分,共30分)
请简述决策树与随机森林的区别与联系,说明随机森林为何能提升模型性能。
解释什么是“特征工程”,并列举至少5种常用的特征处理方法。
简述K-Means聚类算法的基本步骤,以及该算法的优缺点。
四、计算题(20分)
已知某二分类模型的预测结果如下表(真实标签1为正例,0为负例):
真实标签
预测标签
样本数
1
1
45
1
0
15
0
1
10
0
0
30
请计算:
(1)精确率(Precision)、召回率(Recall)和F1分数;
(2)准确率(Accuracy)和Fβ分数(β=2,侧重召回率)。
参考答案
一、选择题
C(决策树分类是有监督学习,其余均为无监督)
C(欧氏距离用于衡量样本相似度,不用于决策树分裂属性选择)
C(正则化的核心是降低模型复杂度,避免过拟合)
C(协同过滤基于用户或物品的交互行为,不依赖特征信息)
B(支持度=包含A∪B的事务数/总事务数)
B(PCA核心是找方差最大的投影方向,保留关键信息)
二、填空题
精确率=TP/(TP+FP);召回率=TP/(TP+FN)(TP:真阳性,FP:假阳性,FN:假阴性)
肘部法则(ElbowMethod)、轮廓系数(SilhouetteCoefficient)、交叉验证法
Sigmoid(σ(x)=1/(1+e??));对数损失函数(LogLoss)
均值/中位数填充、众数填充、删除缺失值、插值法填充、模型预测填充
bootstrap抽样(样本随机)、特征随机选择(列抽样)
三、简答题
区别与联系:
联系:随机森林是基于决策树的集成算法,由多棵决策树组成,最终结果通过投票(分类)或平均(回归)得到。
区别:①单棵决策树易过拟合,随机森林通过多棵树集成降低过拟合风险;②决策树使用全部样本和特征构建,随机森林对样本(bootstrap抽样)和特征(随机选择部分特征)进行随机抽样;③随机森林的方差更低,泛化能力更强。
性能提升原因:通过“集成学习”的思想,利用多棵决策树的多样性抵消单棵树的偏差和方差,减少过拟合,提升模型稳定性和准确率。
特征工程:是将原始数据转化为有效特征的过程,核心目标是提升模型性能,包括特征构建、特征选择、特
您可能关注的文档
最近下载
- 美世国际职位评估体系IPE3.0使用手(excel自动计分表).xlsx VIP
- 不再信访缠讼承诺书.docx VIP
- C202513【冲刺】2025年甘肃政法大学2025Z1信息内容安全《807计算机网络.pdf VIP
- 22G101-1 混凝土结构施工图平面整体表示方法制图规则和构造详图-现浇混凝土框架、剪力墙、梁、板建筑工程图集 _2.docx VIP
- 贵阳市劳动合同书(范本).doc VIP
- 医保drg培训课件.ppt VIP
- 2025京东自营售前客服认证初级考试售后丨JD京东POP售后客服认证初级考试题库.docx
- 职业生涯管理培训.ppt VIP
- 好医生2025年《医学人文视角下的医德医风建设》习题答案.docx
- AI助力高校“一站式”学生社区建设的路径探索与挑战应对.docx VIP
原创力文档


文档评论(0)