2026年高级数据分析师考试题库（附答案和详细解析）（0112）.docxVIP

下载本文档

0
0
约8.85千字
约 12页
2026-02-10 发布于江苏
举报

2026年高级数据分析师考试题库（附答案和详细解析）（0112）.docx

高级数据分析师考试试卷（总分100分）

一、单项选择题（共10题，每题1分，共10分）

数据质量的核心评估指标不包括以下哪项？

A.完整性（Completeness）

B.准确性（Accuracy）

C.一致性（Consistency）

D.实时性（Timeliness）

答案：D

解析：数据质量的核心指标通常包括完整性（数据无缺失）、准确性（数据与真实值的匹配度）、一致性（不同来源数据的统一程度）。实时性是数据时效性的衡量指标，属于数据价值维度而非质量核心指标。

在机器学习中，以下哪种算法属于有监督学习？

A.K-means聚类

B.主成分分析（PCA）

C.支持向量机（SVM）

D.关联规则挖掘（Apriori）

答案：C

解析：有监督学习需要标签数据进行训练，SVM通过样本的特征和标签学习分类边界。K-means（无监督聚类）、PCA（无监督降维）、Apriori（无监督关联分析）均无需标签数据。

以下哪项是AB测试中“第一类错误（TypeIError）”的定义？

A.原假设为真时拒绝原假设（弃真）

B.原假设为假时接受原假设（取伪）

C.实验组与对照组差异不显著时误判为显著

D.样本量不足导致的统计效力不足

答案：A

解析：第一类错误（α错误）指原假设（H?）实际为真时错误拒绝H?（如“两组无差异”为真时误判为有差异）。B是第二类错误（β错误），C是第一类错误的具体表现但非定义，D是统计效力问题。

时间序列分析中，ARIMA模型的“MA”代表什么？

A.自回归（AutoRegressive）

B.移动平均（MovingAverage）

C.积分（Integrated）

D.差分（Differencing）

答案：B

解析：ARIMA(p,d,q)中，AR是自回归（p阶），I是积分（d阶差分），MA是移动平均（q阶）。MA项通过历史误差项的线性组合建模当前值。

以下哪种数据可视化图表最适合展示用户行为路径的转化漏斗？

A.散点图（ScatterPlot）

B.热力图（HeatMap）

C.桑基图（SankeyDiagram）

D.箱线图（BoxPlot）

答案：C

解析：桑基图通过节点和流向宽度直观展示不同阶段的流量转化关系，是漏斗分析的典型工具。散点图用于变量相关性，热力图展示二维密度，箱线图展示数据分布。

数据仓库（DataWarehouse）的核心特性不包括？

A.面向主题（SubjectOriented）

B.实时更新（Real-timeUpdate）

C.集成性（Integrated）

D.时变性（TimeVariant）

答案：B

解析：数据仓库主要用于分析决策，数据通常按周期（如日/月）批量加载，而非实时更新。其核心特性包括面向主题（按业务主题组织）、集成性（多源数据整合）、时变性（保留历史数据）。

在特征工程中，对类别型特征“用户职业”（如教师、医生、公务员）进行编码时，最合理的方法是？

A.直接赋值为1/2/3的数值编码（LabelEncoding）

B.独热编码（One-HotEncoding）

C.二进制编码（BinaryEncoding）

D.目标编码（TargetEncoding）

答案：B

解析：类别型特征无顺序关系时，独热编码（生成虚拟变量）能避免模型错误识别顺序关系。LabelEncoding可能引入错误的数值顺序（如教师=1医生=2），目标编码需防止过拟合，二进制编码适用于高基数类别。

以下哪项是评估分类模型性能的“F1分数”的计算方式？

A.精确率（Precision）与召回率（Recall）的算术平均

B.精确率与召回率的调和平均

C.准确率（Accuracy）与召回率的加权平均

D.真阳性率（TPR）与假阳性率（FPR）的比值

答案：B

解析：F1分数=2(PR)/(P+R)，是精确率和召回率的调和平均，用于平衡两者的重要性。算术平均无法反映两者的权衡，准确率未考虑类别不平衡，TPR与FPR的关系体现在ROC曲线中。

大数据处理框架Hadoop的核心组件不包括？

A.HDFS（分布式文件系统）

B.MapReduce（分布式计算模型）

C.HBase（分布式数据库）

D.Spark（内存计算框架）

答案：D

解析：Hadoop生态核心是HDFS（存储）和MapReduce（计算），HBase是基于HDFS的NoSQL数据库。Spark是独立于Hadoop的计算框架，虽可运行在YARN上，但非Hadoop核心组件。

在异常检测中，基于距离的方法（如K近邻）的主要假设是？

A.异常值在特征空间中密度较高

B.异常值与多数样本的距离较远

C.异常值服从正态分布

D.异常值的出现

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年高级数据分析师考试题库（附答案和详细解析）（0112）.docxVIP