- 0
- 0
- 约8.81千字
- 约 12页
- 2025-10-18 发布于上海
- 举报
高级数据分析师考试试卷
一、单项选择题(共10题,每题1分,共10分)
在数据清洗过程中,处理异常值的核心原则是()
A.直接删除所有异常值
B.用均值替换所有异常值
C.仅保留符合正态分布的数值
D.根据业务场景判断异常值的合理性
答案:D
解析:异常值可能是数据错误(如测量误差),也可能是真实业务现象(如用户突发大额消费)。直接删除或统一替换(A/B)会丢失关键信息;正态分布仅适用于部分场景(C)。正确做法是结合业务逻辑判断异常值的来源(如用户行为、系统日志),再决定保留、修正或删除(D)。
评估分类模型时,F1-score更适用于以下哪种场景?()
A.正负样本极度不平衡
B.仅关注模型的准确率
C.需要平衡精确率与召回率
D.预测连续型数值
答案:C
解析:F1-score是精确率(Precision)和召回率(Recall)的调和平均(2PR/(P+R)),适用于需要同时关注“查准”和“查全”的场景(C)。正负样本不平衡时更常用AUC-ROC(A错误);准确率(Accuracy)未考虑类别分布(B错误);预测连续值用回归模型(D错误)。
关于A/B测试的前提条件,以下表述正确的是()
A.只需保证两组样本量相同
B.实验前需验证两组用户的同质性
C.实验周期越短越好以避免外部干扰
D.无需考虑业务指标的实际显著性
答案:B
解析:A/B测试要求实验组与对照组在实验前具有同质性(如用户画像、行为特征一致),否则结果可能由分组偏差导致(B正确)。样本量需满足统计检验要求(A错误);实验周期需覆盖用户完整行为周期(如电商至少7天)(C错误);统计显著(P0.05)不代表业务显著(如提升0.1%无实际价值)(D错误)。
时间序列的组成部分不包括()
A.趋势(Trend)
B.季节性(Seasonality)
C.白噪声(WhiteNoise)
D.共线性(Multicollinearity)
答案:D
解析:时间序列的经典分解包括趋势(长期变化)、季节性(周期性波动)、循环性(非固定周期)和残差(白噪声,无规律部分)(A/B/C正确)。共线性是回归模型中特征间的高度相关性,属于截面数据问题(D错误)。
特征工程中,处理高基数类别特征(如“用户ID”)的最佳方法是()
A.直接删除该特征
B.独热编码(One-HotEncoding)
C.嵌入编码(Embedding)
D.标签编码(LabelEncoding)
答案:C
解析:高基数特征(如用户ID有10万+唯一值)使用独热编码会导致维度爆炸(B错误);标签编码无法捕捉特征间的语义关系(D错误);直接删除可能丢失关键信息(A错误)。嵌入编码通过神经网络学习低维稠密表示,能保留特征内在关联(C正确)。
数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别是()
A.数据湖仅存储结构化数据
B.数据仓库支持实时数据写入
C.数据湖在存储时不定义模式(Schema-on-Read)
D.数据仓库使用文件系统存储(如HDFS)
答案:C
解析:数据湖采用“读时模式”(Schema-on-Read),存储原始数据(结构化/半结构化/非结构化)后再定义模式(C正确);数据仓库是“写时模式”(Schema-on-Write),需提前设计表结构(A错误)。数据仓库通常支持批量写入(非实时)(B错误);数据湖使用分布式文件系统(如HDFS),数据仓库用关系型数据库(D错误)。
若混淆矩阵中TP=80,FP=20,FN=30,TN=70,则精确率为()
A.80%
B.72.7%
C.66.7%
D.53.3%
答案:A
解析:精确率=TP/(TP+FP)=80/(80+20)=80%(A正确)。72.7%是召回率(80/(80+30)),66.7%是准确率((80+70)/200),53.3%无实际意义(D错误)。
贝叶斯定理的核心思想是()
A.用先验概率修正后验概率
B.假设特征间相互独立
C.最大化似然函数
D.最小化损失函数
答案:A
解析:贝叶斯定理公式为P(A|B)=P(B|A)P(A)/P(B),即通过先验概率P(A)和似然度P(B|A)计算后验概率P(A|B)(A正确)。特征独立是朴素贝叶斯的假设(B错误);最大化似然是频率学派方法(C错误);最小化损失是优化目标(D错误)。
因果推断中,“工具变量法”适用于解决以下哪种偏差?()
A.选择偏差(SelectionBias)
B.遗漏变量偏差(OmittedVariableBias)
C.测量误差偏差(MeasurementErrorBias)
D.幸存者偏差(SurvivorshipBia
您可能关注的文档
- 2025年元宇宙应用开发师考试题库(附答案和详细解析)(1011).docx
- 2025年康复治疗师考试题库(附答案和详细解析)(1015).docx
- 2025年思科认证网络工程师(CCNP)考试题库(附答案和详细解析)(1011).docx
- 2025年注册地质工程师考试题库(附答案和详细解析)(1015).docx
- 2025年注册照明设计师考试题库(附答案和详细解析)(1011).docx
- 2025年注册通信工程师考试题库(附答案和详细解析)(1013).docx
- 2025年注册风险控制师(CRC)考试题库(附答案和详细解析)(1015).docx
- 2025年游戏引擎开发师考试题库(附答案和详细解析)(1013).docx
- 2025年碳排放管理师考试题库(附答案和详细解析)(1015).docx
- 2025年造价工程师考试题库(附答案和详细解析)(1015).docx
最近下载
- 国际期刊科技论文写作与发表.PDF VIP
- 科技英语写作讲义.pdf VIP
- 《苹果手机删除的照片如何恢复?苹果最近删除照片恢复.docx VIP
- 水平井完井工艺技术要求,SY_T6-2016.pdf VIP
- SY/T 6270-2017 石油天然气钻采设备固井、压裂管汇的使用与维护.pdf VIP
- 部编版一年级语文下册第六单元测试卷.docx VIP
- 德州职业技术学院单招职业技能测试参考试题库(含答案).docx VIP
- SolidWorks-全套入门教程PPT课件.pptx VIP
- 2025年加州驾照常考题库及答案.doc VIP
- SYT5695-2017 钻井液用降黏剂 两性离子聚合物.pdf VIP
原创力文档

文档评论(0)