2026年高级数据分析师考试题库(附答案和详细解析)(0112).docxVIP

  • 0
  • 0
  • 约8.85千字
  • 约 12页
  • 2026-02-10 发布于江苏
  • 举报

2026年高级数据分析师考试题库(附答案和详细解析)(0112).docx

高级数据分析师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

数据质量的核心评估指标不包括以下哪项?

A.完整性(Completeness)

B.准确性(Accuracy)

C.一致性(Consistency)

D.实时性(Timeliness)

答案:D

解析:数据质量的核心指标通常包括完整性(数据无缺失)、准确性(数据与真实值的匹配度)、一致性(不同来源数据的统一程度)。实时性是数据时效性的衡量指标,属于数据价值维度而非质量核心指标。

在机器学习中,以下哪种算法属于有监督学习?

A.K-means聚类

B.主成分分析(PCA)

C.支持向量机(SVM)

D.关联规则挖掘(Apriori)

答案:C

解析:有监督学习需要标签数据进行训练,SVM通过样本的特征和标签学习分类边界。K-means(无监督聚类)、PCA(无监督降维)、Apriori(无监督关联分析)均无需标签数据。

以下哪项是AB测试中“第一类错误(TypeIError)”的定义?

A.原假设为真时拒绝原假设(弃真)

B.原假设为假时接受原假设(取伪)

C.实验组与对照组差异不显著时误判为显著

D.样本量不足导致的统计效力不足

答案:A

解析:第一类错误(α错误)指原假设(H?)实际为真时错误拒绝H?(如“两组无差异”为真时误判为有差异)。B是第二类错误(β错误),C是第一类错误的具体表现但非定义,D是统计效力问题。

时间序列分析中,ARIMA模型的“MA”代表什么?

A.自回归(AutoRegressive)

B.移动平均(MovingAverage)

C.积分(Integrated)

D.差分(Differencing)

答案:B

解析:ARIMA(p,d,q)中,AR是自回归(p阶),I是积分(d阶差分),MA是移动平均(q阶)。MA项通过历史误差项的线性组合建模当前值。

以下哪种数据可视化图表最适合展示用户行为路径的转化漏斗?

A.散点图(ScatterPlot)

B.热力图(HeatMap)

C.桑基图(SankeyDiagram)

D.箱线图(BoxPlot)

答案:C

解析:桑基图通过节点和流向宽度直观展示不同阶段的流量转化关系,是漏斗分析的典型工具。散点图用于变量相关性,热力图展示二维密度,箱线图展示数据分布。

数据仓库(DataWarehouse)的核心特性不包括?

A.面向主题(SubjectOriented)

B.实时更新(Real-timeUpdate)

C.集成性(Integrated)

D.时变性(TimeVariant)

答案:B

解析:数据仓库主要用于分析决策,数据通常按周期(如日/月)批量加载,而非实时更新。其核心特性包括面向主题(按业务主题组织)、集成性(多源数据整合)、时变性(保留历史数据)。

在特征工程中,对类别型特征“用户职业”(如教师、医生、公务员)进行编码时,最合理的方法是?

A.直接赋值为1/2/3的数值编码(LabelEncoding)

B.独热编码(One-HotEncoding)

C.二进制编码(BinaryEncoding)

D.目标编码(TargetEncoding)

答案:B

解析:类别型特征无顺序关系时,独热编码(生成虚拟变量)能避免模型错误识别顺序关系。LabelEncoding可能引入错误的数值顺序(如教师=1医生=2),目标编码需防止过拟合,二进制编码适用于高基数类别。

以下哪项是评估分类模型性能的“F1分数”的计算方式?

A.精确率(Precision)与召回率(Recall)的算术平均

B.精确率与召回率的调和平均

C.准确率(Accuracy)与召回率的加权平均

D.真阳性率(TPR)与假阳性率(FPR)的比值

答案:B

解析:F1分数=2(PR)/(P+R),是精确率和召回率的调和平均,用于平衡两者的重要性。算术平均无法反映两者的权衡,准确率未考虑类别不平衡,TPR与FPR的关系体现在ROC曲线中。

大数据处理框架Hadoop的核心组件不包括?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算模型)

C.HBase(分布式数据库)

D.Spark(内存计算框架)

答案:D

解析:Hadoop生态核心是HDFS(存储)和MapReduce(计算),HBase是基于HDFS的NoSQL数据库。Spark是独立于Hadoop的计算框架,虽可运行在YARN上,但非Hadoop核心组件。

在异常检测中,基于距离的方法(如K近邻)的主要假设是?

A.异常值在特征空间中密度较高

B.异常值与多数样本的距离较远

C.异常值服从正态分布

D.异常值的出现

文档评论(0)

1亿VIP精品文档

相关文档