- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
高级数据分析师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种数据清洗方法最适用于非线性关系的缺失值填充?
A.均值填充
B.回归填充
C.随机森林填充
D.删除含缺失值的记录
答案:C
解析:随机森林填充通过多棵决策树学习特征间的非线性关系,能更准确捕捉数据模式(尤其适用于高维、非线性场景);均值填充仅适用于正态分布的数值型变量,忽略数据分布差异;回归填充假设变量间线性关系,可能引入模型偏差;删除记录会导致数据量损失,仅适用于缺失率极低的情况。
在评估分类模型时,若业务场景中“假阳性”(FP)的成本远高于“假阴性”(FN),应优先关注以下哪个指标?
A.准确率(Accuracy)
B.召回率(Recall)
C.F1分数
D.精确率(Precision)
答案:D
解析:精确率(Precision=TP/(TP+FP))衡量“预测为正例中实际为正例的比例”,当FP成本高时(如垃圾邮件误判为正常邮件),需降低FP,因此优先提升精确率;召回率关注FN(如疾病漏诊),准确率受类别不平衡影响大,F1是精确率与召回率的调和平均,不侧重单一成本。
以下哪项不属于数据挖掘的核心任务?
A.关联规则挖掘
B.聚类分析
C.数据可视化
D.分类与预测
答案:C
解析:数据挖掘的核心任务包括分类、聚类、关联规则、预测等(CRISP-DM流程定义);数据可视化是数据分析的呈现手段,属于数据展示环节,而非挖掘任务本身。
时间序列分析中,“季节性”的典型周期是?
A.1天
B.1周
C.1年
D.以上均可能
答案:D
解析:季节性指固定周期的重复模式,周期长度由业务场景决定(如零售业日周期、交通流量周周期、能源消耗年周期),因此三种均可能。
特征工程中,“WOE(证据权重)”主要用于?
A.处理类别不平衡
B.衡量特征对目标变量的预测能力
C.降低特征维度
D.处理缺失值
答案:B
解析:WOE(WeightofEvidence)通过计算特征分箱后正负样本的比例差异,衡量特征与目标变量的相关性(常见于信用评分模型);处理类别不平衡常用过采样/欠采样,降维用PCA等,缺失值处理用填充或删除。
A/B测试中,若实验组与对照组的样本量差异超过20%,最可能导致?
A.统计功效不足
B.选择偏差
C.第一类错误(α错误)增加
D.第二类错误(β错误)减少
答案:B
解析:样本量差异过大可能源于非随机分配(如流量分割错误),导致两组用户特征分布不一致(选择偏差),影响结果的有效性;统计功效与样本量绝对值相关,α错误由显著性水平决定,β错误与功效成反比。
数据仓库的“ETL”流程中,“L”指?
A.Extract(抽取)
B.Transform(转换)
C.Load(加载)
D.Layer(分层)
答案:C
解析:ETL是抽取(Extract)、转换(Transform)、加载(Load)的缩写,加载指将清洗转换后的数据存入目标数据仓库。
以下哪种机器学习算法属于“生成式模型”?
A.逻辑回归
B.支持向量机(SVM)
C.朴素贝叶斯
D.随机森林
答案:C
解析:生成式模型通过学习数据的联合概率分布P(X,Y)(如朴素贝叶斯假设特征独立,计算P(Y|X)=P(X|Y)P(Y)/P(X));判别式模型直接学习决策边界P(Y|X)(如逻辑回归、SVM、随机森林)。
衡量用户生命周期价值(LTV)时,核心指标不包括?
A.客户获取成本(CAC)
B.平均订单价值(AOV)
C.客户留存率(RetentionRate)
D.复购频率(PurchaseFrequency)
答案:A
解析:LTV=(AOV×复购频率×生命周期长度)×(1-流失率),CAC是获取客户的成本,用于计算LTV/CAC比值,而非LTV本身的核心指标。
以下哪项是“辛普森悖论”的典型表现?
A.分组数据的趋势与整体数据趋势相反
B.相关关系被误判为因果关系
C.小样本导致统计结论不可靠
D.特征多重共线性影响模型稳定性
答案:A
解析:辛普森悖论指分组分析时呈现的趋势,在合并数据后反转(如某药物在男性和女性子集中有效率更高,但整体有效率更低);相关与因果的混淆是因果推断问题,小样本是统计功效问题,多重共线性是特征问题。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
数据质量评估的核心指标包括?
A.完整性
B.一致性
C.美观性
D.准确性
答案:ABD
解析:数据质量的五大核心指标为完整性(无缺失)、准确性(与真实值一致)、一致性(格式/定义统一)、及时性(更新频率)、有效性(符合业务规则);美观性属于可视化范畴,与数据质量无关。
以下哪些场景适合使用K-m
您可能关注的文档
- 2025年人工智能工程师考试题库(附答案和详细解析)(1225).docx
- 2025年公关策划师考试题库(附答案和详细解析)(1210).docx
- 2025年智能制造工程师考试题库(附答案和详细解析)(1225).docx
- 2025年注册化工工程师考试题库(附答案和详细解析)(1221).docx
- 2025年注册核工程师考试题库(附答案和详细解析)(1222).docx
- 2025年澳大利亚注册会计师(CPAAustralia)考试题库(附答案和详细解析)(1216).docx
- 2025年社会心理服务人员考试题库(附答案和详细解析)(1219).docx
- K12学科辅导课程合作方案.docx
- Python中Pandas库对大规模数据清洗的效率优化.docx
- RCEP框架下东盟国家产业链向中国的转移趋势分析.docx
原创力文档


文档评论(0)