数据科学家资格数据分析试卷及详解.docxVIP

  • 1
  • 0
  • 约9.9千字
  • 约 24页
  • 2026-06-12 发布于上海
  • 举报

数据科学家资格数据分析试卷及详解.docx

数据科学家资格数据分析试卷及详解

本试卷面向数据分析方向准数据科学家群体,覆盖理论基础、实操技能、业务落地全维度考点,总分100分,60分及以上为合格。

一、单项选择题(共10题,每题1分,共10分)

下列统计量中,对极端值最不敏感的是

A.算术平均数

B.中位数

C.标准差

D.变异系数

答案:B

解析:中位数是排序后位于序列中间位置的数值,极端值的偏移不会改变序列中间位置的结果,因此对极端值几乎没有影响。其余选项中,算术平均数会被极端值直接拉高或拉低,标准差和变异系数的计算都基于算术平均数,同样会受到极端值的明显干扰,因此均不符合要求。

处理结构化数据中的连续型数值缺失值时,以下哪种操作属于不合理的常规做法

A.用同类别分组均值填充

B.直接删除缺失占比超过60%的特征

C.直接用全局均值填充所有缺失值

D.用模型预测缺失值填充

答案:C

解析:直接使用全局均值填充所有缺失值完全不考虑不同子群体的特征分布差异,会给数据集引入大量不必要的偏差,属于不合理操作。其余三个选项都是工业场景下处理缺失值的常规合理操作:分组均值填充可以保留不同子群体的分布差异,删除缺失占比过高的特征可以避免无效特征干扰模型效果,模型预测填充是精度更高的缺失值补全方案。

皮尔逊相关系数的常规取值范围是

A.-1到1

B.0到1

C.负无穷到正无穷

D.0到正无穷

答案:A

解析:皮尔

文档评论(0)

1亿VIP精品文档

相关文档