2025年数据分析与挖掘考试试题及答案.docxVIP

2025年数据分析与挖掘考试试题及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年数据分析与挖掘考试试题及答案

一、单项选择题(每题2分,共20分)

1.在数据清洗过程中,某数值型特征存在5%的缺失值,且该特征与目标变量呈强正相关。若采用填充策略,最合理的选择是()

A.用全局均值填充

B.用该特征分组后的类别均值填充(如按性别分组)

C.直接删除缺失值所在行

D.用随机数填充

答案:B

解析:当特征与目标变量强相关时,简单全局均值会忽略分组信息,可能引入偏差;按相关类别(如性别)分组填充能保留特征与目标的关联关系;删除5%数据可能损失信息;随机数填充无统计意义。

2.以下哪种算法属于无监督学习?()

A.逻辑回归

B.K-means聚类

C.随机森林

D.支持向量机(SVM)分类

答案:B

解析:无监督学习无标签数据,K-means通过数据自身分布聚类;其余选项均需标签(监督学习)。

3.在分类模型评估中,若关注“将正类正确识别”的能力,应重点考察()

A.准确率(Accuracy)

B.精确率(Precision)

C.召回率(Recall)

D.F1-score

答案:C

解析:召回率=TP/(TP+FN),衡量正类被正确识别的比例;精确率衡量预测为正的样本中实际正类的比例;准确率是整体正确比例;F1是两者调和平均。

4.某时间序列数据呈现明显季节性波动,且长期趋势为线性增长。若用ARIMA模型拟合,最合理的差分阶数d和季节差分阶数D设置为()

A.d=1,D=0

B.d=0,D=1

C.d=1,D=1

D.d=2,D=2

答案:C

解析:线性增长需一阶差分(d=1)消除趋势;季节性波动需季节差分(D=1,如12步差分处理月度数据)。

5.特征工程中,对“用户注册时间”字段进行处理时,以下操作最不推荐的是()

A.提取注册月份作为分类特征

B.计算注册时间与当前时间的时间差(天)作为数值特征

C.直接保留原始时间戳(如“2023-05-1514:30:00”)作为模型输入

D.提取注册时段(如“上午/下午/晚上”)作为分箱特征

答案:C

解析:原始时间戳包含冗余信息(如具体时分秒),模型难以直接学习时间序列模式;其他选项均通过特征提取保留了时间的业务意义。

6.关联规则挖掘中,若某规则“牛奶→面包”的支持度为15%,置信度为80%,提升度为1.2,则以下说法正确的是()

A.同时购买牛奶和面包的用户占比15%

B.购买牛奶的用户中80%会购买面包

C.购买牛奶和面包的概率是独立情况下的1.2倍

D.以上均正确

答案:D

解析:支持度=P(牛奶∩面包)=15%;置信度=P(面包|牛奶)=80%;提升度=置信度/P(面包)=1.2,即关联度高于独立情况。

7.以下哪种情况最可能导致模型过拟合?()

A.增加训练数据量

B.对特征进行标准化

C.降低决策树的最大深度

D.在神经网络中减少正则化参数λ

答案:D

解析:正则化参数λ越小,模型对权重的惩罚越轻,容易学习到训练数据的噪声,导致过拟合;增加数据量、标准化、限制树深度均缓解过拟合。

8.某电商平台用户行为数据中,“购买金额”字段存在极端值(如单次购买10万元),但业务上确认这些是真实高客单价订单。处理该字段时,最合理的方法是()

A.用Z-score法删除3σ外的异常值

B.对数变换压缩数值范围

C.直接保留原始值

D.用IQR法替换上下限外的值

答案:B

解析:极端值为真实数据时,删除或替换会损失信息;对数变换可降低数值尺度差异,同时保留高客单价的相对关系;原始值可能使模型受极端值影响过大。

9.在文本挖掘中,对“用户评价”进行情感分析时,若语料库为中文,以下预处理步骤正确的顺序是()

①分词②去停用词③文本向量化④去除标点符号

A.④→①→②→③

B.①→④→②→③

C.④→②→①→③

D.①→②→④→③

答案:A

解析:中文预处理流程通常为:去标点→分词→去停用词→向量化(如TF-IDF)。

10.某二分类问题中,真实标签为[1,0,1,1,0],模型预测概率为[0.7,0.3,0.6,0.4,0.8](阈值0.5)。计算其AUC-ROC值时,需要()

A.计算不同阈值下的FPR和TPR,绘制曲线并求面积

B.直接计算准确率

C.计算混淆矩阵的对角线之和

D.计算精确率和召回率的调和平均

答案:A

解析:AUC-ROC是不同

文档评论(0)

yclsb001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档