- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
高级数据分析师考试试卷
一、单项选择题(共10题,每题1分,共10分)
在特征工程中,用于衡量特征与目标变量相关性的IV(InformationValue)值,其合理范围通常为?
A.IV0.02(无预测能力)
B.0.02≤IV0.1(弱预测能力)
C.0.1≤IV0.3(中等预测能力)
D.IV≥0.5(极强预测能力)
答案:C
解析:IV值是衡量特征预测能力的重要指标,通常划分标准为:IV0.02(无预测能力),0.02≤IV0.1(弱),0.1≤IV0.3(中等),0.3≤IV0.5(强),IV≥0.5(可能存在异常,需验证)。因此正确选项为C,A、B、D范围描述错误。
混淆矩阵中,F1分数的计算公式是?
A.(精确率+召回率)/2
B.2(精确率召回率)/(精确率+召回率)
C.TP/(TP+FN)
D.TP/(TP+FP)
答案:B
解析:F1分数是精确率(P=TP/(TP+FP))和召回率(R=TP/(TP+FN))的调和平均,公式为2PR/(P+R)。选项A是算术平均,C是召回率,D是精确率,故正确答案为B。
A/B测试中,若要保证结果的有效性,关键前提是?
A.测试组与对照组样本量相同
B.两组用户的特征分布具有显著差异
C.用户被随机分配到测试组或对照组
D.测试仅持续1天以避免外部干扰
答案:C
解析:A/B测试的核心是随机化分配(避免选择偏差),确保两组用户在未干预前具有同质性。样本量相同非必要(需统计功效计算),特征分布差异会引入混淆变量,测试时长需覆盖用户行为周期(如电商至少7天)。因此正确答案为C。
时间序列预测中,适用于具有稳定季节性波动的模型是?
A.ARIMA(p,d,q)
B.SARIMA(p,d,q)(P,D,Q)s
C.简单移动平均(SMA)
D.指数平滑(SES)
答案:B
解析:SARIMA(季节性ARIMA)通过引入季节性阶数(P,D,Q)和周期s(如s=12表示月度数据的年周期),专门处理季节性波动。ARIMA不直接处理季节性,SMA和SES对季节性支持较弱,故正确答案为B。
数据清洗中,处理异常值的正确流程是?
A.直接删除所有异常值→分析数据分布→确定异常值标准
B.分析数据分布→确定异常值标准(如Z-score3)→根据业务意义决定保留/修正
C.用均值填充所有异常值→验证填充后数据分布
D.将异常值统一标记为缺失值→用KNN填充
答案:B
解析:异常值处理需先通过统计方法(如Z-score、IQR)或业务规则定义异常,再结合业务场景判断(如高消费用户可能是真实高价值客户),而非直接删除或填充。选项A顺序错误,C、D未考虑业务意义,故正确答案为B。
以下哪种方法最能有效缓解模型过拟合?
A.增加训练数据量
B.减少特征数量
C.提高模型复杂度(如增加决策树深度)
D.降低学习率(针对梯度下降模型)
答案:A
解析:过拟合的本质是模型对训练数据的噪声过度学习,增加数据量可提升模型泛化能力;减少特征可能导致欠拟合;提高复杂度会加剧过拟合;降低学习率影响收敛速度而非过拟合。故正确答案为A。
商业分析中,RFM模型的“M”指的是?
A.最近一次消费时间(Recency)
B.消费频率(Frequency)
C.消费金额(Monetary)
D.客户生命周期(Lifetime)
答案:C
解析:RFM模型由Recency(最近消费)、Frequency(消费频率)、Monetary(消费金额)构成,用于客户分群。选项C正确,其他为干扰项。
因果推断中,“工具变量法”的关键要求是?
A.工具变量与干预变量不相关
B.工具变量与干扰项(混淆变量)相关
C.工具变量仅通过干预变量影响结果变量
D.工具变量必须是离散变量
答案:C
解析:工具变量(Z)需满足:①Z与干预变量(X)相关;②Z与干扰项(U)不相关;③Z仅通过X影响结果(Y)。选项C符合第三个条件,其他均错误。
数据仓库的维度建模中,“事实表”通常存储?
A.描述业务过程的度量值(如销售额)
B.用于分类的上下文信息(如时间、地区)
C.数据清洗后的原始数据
D.多维分析的预计算结果(如聚合表)
答案:A
解析:维度建模中,事实表存储业务过程的量化结果(如订单金额、数量),维度表存储分类信息(如时间维度、产品维度)。选项A正确,B是维度表的作用。
异常检测中,“孤立森林(IsolationForest)”的核心思想是?
A.计算样本与邻域样本的密度差异
B.通过树结构随机分割数据,异常值更容易被孤立
C.基于距离度量(如欧氏距离)识别离群点
D.使用聚类算法(如K-means)将小簇视为异常
答案:B
解析:孤立森林通过构建多棵随机二叉树,异常值
您可能关注的文档
- 2025年3D打印工程师考试题库(附答案和详细解析)(1226).docx
- 2025年SOC安全运营工程师考试题库(附答案和详细解析)(1223).docx
- 2025年医药研发注册师考试题库(附答案和详细解析)(1217).docx
- 2025年国家公务员考试题库(附答案和详细解析)(1229).docx
- 2025年国际注册信托与财富管理师(CTEP)考试题库(附答案和详细解析)(1212).docx
- 2025年国际金融市场从业资格(ICMA)考试题库(附答案和详细解析)(1223).docx
- 2025年导游资格考试考试题库(附答案和详细解析)(1231).docx
- 2025年应急救援指挥师考试题库(附答案和详细解析)(1227).docx
- 2025年康养管理师考试题库(附答案和详细解析)(1216).docx
- 2025年注册信息系统安全专家(CISSP)考试题库(附答案和详细解析)(1229).docx
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
原创力文档


文档评论(0)