2025年数据分析与挖掘考试试题及答案.docxVIP

下载本文档

0
0
约8.6千字
约 23页
2025-11-21 发布于四川
举报
版权申诉

2025年数据分析与挖掘考试试题及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年数据分析与挖掘考试试题及答案

一、单项选择题（每题2分，共20分）

1.在数据清洗过程中，某数值型特征存在5%的缺失值，且该特征与目标变量呈强正相关。若采用填充策略，最合理的选择是（）

A.用全局均值填充

B.用该特征分组后的类别均值填充（如按性别分组）

C.直接删除缺失值所在行

D.用随机数填充

答案：B

解析：当特征与目标变量强相关时，简单全局均值会忽略分组信息，可能引入偏差；按相关类别（如性别）分组填充能保留特征与目标的关联关系；删除5%数据可能损失信息；随机数填充无统计意义。

2.以下哪种算法属于无监督学习？（）

A.逻辑回归

B.K-means聚类

C.随机森林

D.支持向量机（SVM）分类

答案：B

解析：无监督学习无标签数据，K-means通过数据自身分布聚类；其余选项均需标签（监督学习）。

3.在分类模型评估中，若关注“将正类正确识别”的能力，应重点考察（）

A.准确率（Accuracy）

B.精确率（Precision）

C.召回率（Recall）

D.F1-score

答案：C

解析：召回率=TP/(TP+FN)，衡量正类被正确识别的比例；精确率衡量预测为正的样本中实际正类的比例；准确率是整体正确比例；F1是两者调和平均。

4.某时间序列数据呈现明显季节性波动，且长期趋势为线性增长。若用ARIMA模型拟合，最合理的差分阶数d和季节差分阶数D设置为（）

A.d=1，D=0

B.d=0，D=1

C.d=1，D=1

D.d=2，D=2

答案：C

解析：线性增长需一阶差分（d=1）消除趋势；季节性波动需季节差分（D=1，如12步差分处理月度数据）。

5.特征工程中，对“用户注册时间”字段进行处理时，以下操作最不推荐的是（）

A.提取注册月份作为分类特征

B.计算注册时间与当前时间的时间差（天）作为数值特征

C.直接保留原始时间戳（如“2023-05-1514:30:00”）作为模型输入

D.提取注册时段（如“上午/下午/晚上”）作为分箱特征

答案：C

解析：原始时间戳包含冗余信息（如具体时分秒），模型难以直接学习时间序列模式；其他选项均通过特征提取保留了时间的业务意义。

6.关联规则挖掘中，若某规则“牛奶→面包”的支持度为15%，置信度为80%，提升度为1.2，则以下说法正确的是（）

A.同时购买牛奶和面包的用户占比15%

B.购买牛奶的用户中80%会购买面包

C.购买牛奶和面包的概率是独立情况下的1.2倍

D.以上均正确

答案：D

解析：支持度=P(牛奶∩面包)=15%；置信度=P(面包|牛奶)=80%；提升度=置信度/P(面包)=1.2，即关联度高于独立情况。

7.以下哪种情况最可能导致模型过拟合？（）

A.增加训练数据量

B.对特征进行标准化

C.降低决策树的最大深度

D.在神经网络中减少正则化参数λ

答案：D

解析：正则化参数λ越小，模型对权重的惩罚越轻，容易学习到训练数据的噪声，导致过拟合；增加数据量、标准化、限制树深度均缓解过拟合。

8.某电商平台用户行为数据中，“购买金额”字段存在极端值（如单次购买10万元），但业务上确认这些是真实高客单价订单。处理该字段时，最合理的方法是（）

A.用Z-score法删除3σ外的异常值

B.对数变换压缩数值范围

C.直接保留原始值

D.用IQR法替换上下限外的值

答案：B

解析：极端值为真实数据时，删除或替换会损失信息；对数变换可降低数值尺度差异，同时保留高客单价的相对关系；原始值可能使模型受极端值影响过大。

9.在文本挖掘中，对“用户评价”进行情感分析时，若语料库为中文，以下预处理步骤正确的顺序是（）

①分词②去停用词③文本向量化④去除标点符号

A.④→①→②→③

B.①→④→②→③

C.④→②→①→③

D.①→②→④→③

答案：A

解析：中文预处理流程通常为：去标点→分词→去停用词→向量化（如TF-IDF）。

10.某二分类问题中，真实标签为[1,0,1,1,0]，模型预测概率为[0.7,0.3,0.6,0.4,0.8]（阈值0.5）。计算其AUC-ROC值时，需要（）

A.计算不同阈值下的FPR和TPR，绘制曲线并求面积

B.直接计算准确率

C.计算混淆矩阵的对角线之和

D.计算精确率和召回率的调和平均

答案：A

解析：AUC-ROC是不同

您可能关注的文档

文档评论（0）

yclsb001 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据分析与挖掘考试试题及答案.docxVIP