- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年数据分析与挖掘考试试题及答案
一、单项选择题(每题2分,共20分)
1.在数据清洗过程中,某数值型特征存在5%的缺失值,且该特征与目标变量呈强正相关。若采用填充策略,最合理的选择是()
A.用全局均值填充
B.用该特征分组后的类别均值填充(如按性别分组)
C.直接删除缺失值所在行
D.用随机数填充
答案:B
解析:当特征与目标变量强相关时,简单全局均值会忽略分组信息,可能引入偏差;按相关类别(如性别)分组填充能保留特征与目标的关联关系;删除5%数据可能损失信息;随机数填充无统计意义。
2.以下哪种算法属于无监督学习?()
A.逻辑回归
B.K-means聚类
C.随机森林
D.支持向量机(SVM)分类
答案:B
解析:无监督学习无标签数据,K-means通过数据自身分布聚类;其余选项均需标签(监督学习)。
3.在分类模型评估中,若关注“将正类正确识别”的能力,应重点考察()
A.准确率(Accuracy)
B.精确率(Precision)
C.召回率(Recall)
D.F1-score
答案:C
解析:召回率=TP/(TP+FN),衡量正类被正确识别的比例;精确率衡量预测为正的样本中实际正类的比例;准确率是整体正确比例;F1是两者调和平均。
4.某时间序列数据呈现明显季节性波动,且长期趋势为线性增长。若用ARIMA模型拟合,最合理的差分阶数d和季节差分阶数D设置为()
A.d=1,D=0
B.d=0,D=1
C.d=1,D=1
D.d=2,D=2
答案:C
解析:线性增长需一阶差分(d=1)消除趋势;季节性波动需季节差分(D=1,如12步差分处理月度数据)。
5.特征工程中,对“用户注册时间”字段进行处理时,以下操作最不推荐的是()
A.提取注册月份作为分类特征
B.计算注册时间与当前时间的时间差(天)作为数值特征
C.直接保留原始时间戳(如“2023-05-1514:30:00”)作为模型输入
D.提取注册时段(如“上午/下午/晚上”)作为分箱特征
答案:C
解析:原始时间戳包含冗余信息(如具体时分秒),模型难以直接学习时间序列模式;其他选项均通过特征提取保留了时间的业务意义。
6.关联规则挖掘中,若某规则“牛奶→面包”的支持度为15%,置信度为80%,提升度为1.2,则以下说法正确的是()
A.同时购买牛奶和面包的用户占比15%
B.购买牛奶的用户中80%会购买面包
C.购买牛奶和面包的概率是独立情况下的1.2倍
D.以上均正确
答案:D
解析:支持度=P(牛奶∩面包)=15%;置信度=P(面包|牛奶)=80%;提升度=置信度/P(面包)=1.2,即关联度高于独立情况。
7.以下哪种情况最可能导致模型过拟合?()
A.增加训练数据量
B.对特征进行标准化
C.降低决策树的最大深度
D.在神经网络中减少正则化参数λ
答案:D
解析:正则化参数λ越小,模型对权重的惩罚越轻,容易学习到训练数据的噪声,导致过拟合;增加数据量、标准化、限制树深度均缓解过拟合。
8.某电商平台用户行为数据中,“购买金额”字段存在极端值(如单次购买10万元),但业务上确认这些是真实高客单价订单。处理该字段时,最合理的方法是()
A.用Z-score法删除3σ外的异常值
B.对数变换压缩数值范围
C.直接保留原始值
D.用IQR法替换上下限外的值
答案:B
解析:极端值为真实数据时,删除或替换会损失信息;对数变换可降低数值尺度差异,同时保留高客单价的相对关系;原始值可能使模型受极端值影响过大。
9.在文本挖掘中,对“用户评价”进行情感分析时,若语料库为中文,以下预处理步骤正确的顺序是()
①分词②去停用词③文本向量化④去除标点符号
A.④→①→②→③
B.①→④→②→③
C.④→②→①→③
D.①→②→④→③
答案:A
解析:中文预处理流程通常为:去标点→分词→去停用词→向量化(如TF-IDF)。
10.某二分类问题中,真实标签为[1,0,1,1,0],模型预测概率为[0.7,0.3,0.6,0.4,0.8](阈值0.5)。计算其AUC-ROC值时,需要()
A.计算不同阈值下的FPR和TPR,绘制曲线并求面积
B.直接计算准确率
C.计算混淆矩阵的对角线之和
D.计算精确率和召回率的调和平均
答案:A
解析:AUC-ROC是不同
您可能关注的文档
最近下载
- 建筑地面工程施工质量验收规范,gb50209-2010 .pdf VIP
- 2025年全国文明单位考核测评标准.pdf VIP
- 期末考试奖状一奖状.doc VIP
- 《安全色和安全标志GB2894-2025》新旧版对比学习丨41页.pptx
- 喜剧的十三种结构.pdf VIP
- 大学生《物理化学》9套期末考试试卷(含答案).pdf VIP
- 5313A-2017 电磁辐射暴露限值和测量方法.pdf VIP
- 广东省深圳市南山区深圳市南山外国语学校(集团)科华学校2023-2024 学年四年级上学期阶段性学情调研期中数学试卷.pdf VIP
- 血管通路护理专科门诊建设与服务规范.docx VIP
- HCIA-IOT 物联网 H12-111 V3.0认证培训考试题库大全-上(单选题汇总) .docx VIP
原创力文档


文档评论(0)