数据科学家题库及分析.docxVIP

  • 2
  • 0
  • 约1.13万字
  • 约 26页
  • 2026-06-25 发布于上海
  • 举报

数据科学家题库及分析

一、单项选择题(共10题,每题1分,共10分)

下列关于数据科学项目核心流程的表述,正确的是

A.数据科学项目的核心流程为数据获取、业务理解、数据预处理、建模分析、评估部署

B.数据科学项目的核心流程为业务理解、数据获取、数据预处理、建模分析、评估部署

C.数据科学项目的核心流程为数据获取、数据预处理、业务理解、建模分析、评估部署

D.数据科学项目的核心流程为业务理解、建模分析、数据获取、数据预处理、评估部署

答案:B

解析:业务理解是数据科学项目的首要前提,需要先明确项目目标、业务需求再开展后续工作,否则容易出现工作偏离实际需求的问题。A、C选项将业务理解放在数据获取之后,会导致数据采集缺乏明确方向,浪费资源;D选项将建模分析放在数据获取之前,不符合数据驱动建模的基本逻辑。

下列场景中,最不适合采用均值填充法处理数值型变量缺失值的是

A.数值型变量呈正态分布且无极端异常值,缺失率低于5%

B.数值型变量呈严重右偏分布,且存在大量极端大额异常值

C.连续型变量样本量充足,缺失值为随机缺失

D.同用户分组下的连续型变量缺失,分组内数据分布均匀

答案:B

解析:均值对极端值非常敏感,严重右偏分布下的均值会被极端值拉高,无法代表数据的一般水平,此时采用中位数填充更合理。A、C、D场景下数据分布均匀无极端值,均值可以较好地代表整体水平,适合用均值填充。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档