数据科学家职位面试题集.docxVIP

  • 0
  • 0
  • 约6.44千字
  • 约 18页
  • 2026-03-04 发布于福建
  • 举报

第PAGE页共NUMPAGES页

2026年数据科学家职位面试题集

一、统计学与机器学习基础(5题,每题8分)

1.题目:

某电商公司希望预测用户购买商品的概率。你收集了用户的年龄、性别、购买历史等数据,并使用逻辑回归模型进行训练。模型输出如下:

-年龄(连续变量)的系数为0.8,P-value=0.03

-性别(二分类,0代表女性,1代表男性)的系数为0.5,P-value=0.01

-购买历史(二元变量,1代表有,0代表无)的系数为1.2,P-value0.001

请解释这些系数的含义,并说明哪些特征对预测结果显著影响?如果P-value较大(如0.05),是否可以删除该特征?为什么?

2.题目:

假设你使用决策树模型进行分类,树的深度为3,节点分裂标准为基尼不纯度。以下是树的局部结构:

-根节点:特征A(取值10为左子树,否则右子树)

-左子树:特征B(取值5为叶节点,输出类别1;否则输出类别2)

-右子树:特征C(取值8为叶节点,输出类别2;否则输出类别3)

请解释该决策树如何进行分类?如果某节点的样本量小于10,是否应该停止分裂?为什么?

3.题目:

某医疗公司使用随机森林模型预测患者是否患有糖尿病。模型结果显示:

-特征X(血糖水平)的重要性为0.35

-特征Y(BMI)的重要性为0.25

-特征Z(年龄)的重要性为0.15

其他特

文档评论(0)

1亿VIP精品文档

相关文档