2025年高级数据分析师考试题库（附答案和详细解析）（1210）.docxVIP

下载本文档

0
0
约7.5千字
约 10页
2025-12-17 发布于上海
举报
版权申诉

2025年高级数据分析师考试题库（附答案和详细解析）（1210）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高级数据分析师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在假设检验中，若原假设为H?:μ=μ?，备择假设为H?:μ≠μ?，则这属于（）。

A.单侧检验（左侧）

B.单侧检验（右侧）

C.双侧检验

D.卡方检验

答案：C

解析：双侧检验的备择假设是μ≠μ?，关注总体参数是否显著偏离原假设值（不论方向）；单侧检验的备择假设是μμ?或μμ?（关注单一方向）。卡方检验用于分类变量的独立性或拟合优度检验，与本题无关。

以下哪种特征工程方法用于解决特征间量纲差异问题？（）

A.独热编码（One-HotEncoding）

B.标准化（Z-Score）

C.主成分分析（PCA）

D.特征分箱（Binning）

答案：B

解析：标准化通过（X-μ）/σ消除量纲影响；独热编码用于处理类别变量；PCA用于降维；分箱用于离散化连续变量。

在时间序列预测中，ARIMA模型的“MA”代表（）。

A.自回归（Auto-Regressive）

B.移动平均（MovingAverage）

C.差分（Integrated）

D.季节性（Seasonal）

答案：B

解析：ARIMA模型结构为AR(p)-I(d)-MA(q)，其中MA(q)表示移动平均部分，利用过去误差项的线性组合建模。

数据倾斜（DataSkew）最可能导致以下哪种问题？（）

A.模型训练速度加快

B.分类模型对少数类预测效果差

C.特征相关性降低

D.数据可视化更清晰

答案：B

解析：数据倾斜指类别或特征值分布不均（如99%正样本，1%负样本），会导致模型偏向多数类，降低少数类的召回率。

A/B测试中，若显著性水平α设为0.05，意味着（）。

A.有5%的概率接受原假设

B.有5%的概率犯第一类错误（弃真）

C.有5%的概率犯第二类错误（取伪）

D.测试结果的置信度为5%

答案：B

解析：α是原假设为真时拒绝原假设的概率（第一类错误概率）；置信度为1-α（95%）。

以下哪种算法属于无监督学习？（）

A.逻辑回归（LogisticRegression）

B.K-means聚类

C.随机森林（RandomForest）

D.支持向量机（SVM）

答案：B

解析：无监督学习无标签数据，K-means通过数据自身分布聚类；其他选项均为有监督学习（需标签训练）。

数据仓库（DataWarehouse）与数据湖（DataLake）的核心区别是（）。

A.存储容量大小

B.数据结构化程度

C.数据实时性

D.访问权限控制

答案：B

解析：数据仓库存储结构化数据（需预先定义Schema），数据湖存储原始、多格式数据（Schema-on-Read）。

在特征选择中，“信息增益”属于（）方法。

A.过滤法（Filter）

B.包装法（Wrapper）

C.嵌入法（Embedded）

D.降维法（DimensionReduction）

答案：A

解析：过滤法基于统计指标（如信息增益、卡方检验）独立于模型选择特征；包装法依赖模型性能（如递归特征消除）；嵌入法在模型训练中自动选择（如L1正则化）。

以下哪项不是混淆矩阵（ConfusionMatrix）的核心指标？（）

A.准确率（Accuracy）

B.精确率（Precision）

C.R方（R2）

D.召回率（Recall）

答案：C

解析：R方是回归模型的拟合优度指标；混淆矩阵用于分类模型评估，核心指标包括准确率、精确率、召回率、F1值等。

商业分析中，“用户生命周期价值（LTV）”的计算通常不包含（）。

A.用户获取成本（CAC）

B.平均交易金额

C.购买频率

D.用户留存率

答案：A

解析：LTV=（平均交易金额×购买频率×用户生命周期），CAC是用户获取成本，用于评估LTV/CAC比值，而非直接计算LTV。

二、多项选择题（共10题，每题2分，共20分）

数据清洗的主要步骤包括（）。

A.处理缺失值（如插值、删除）

B.纠正异常值（如盖帽法、转换）

C.标准化量纲（如Z-Score、Min-Max）

D.合并多源数据（如JOIN操作）

答案：AB

解析：数据清洗聚焦于修正数据错误，包括缺失值、异常值处理；标准化属于特征工程，合并数据属于数据整合，不属于清洗核心步骤。

以下属于特征提取方法的有（）。

A.从日期字段提取“星期几”

B.对文本进行词频向量化（TF-IDF）

C.对连续变量进行分箱（Binning）

D.用PCA降维生成新特征

答案：ABD

解析：特征提取是从原始数据生成新特征（如日期拆解、文本向量化、降维）；分箱属于特征转换（将连续变量离散化）。

评估分类模型时，以下哪些场景更关注召回率

您可能关注的文档

文档评论（0）

gyf70 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年高级数据分析师考试题库（附答案和详细解析）（1210）.docxVIP