- 0
- 0
- 约6.44千字
- 约 18页
- 2026-03-04 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据科学家职位面试题集
一、统计学与机器学习基础(5题,每题8分)
1.题目:
某电商公司希望预测用户购买商品的概率。你收集了用户的年龄、性别、购买历史等数据,并使用逻辑回归模型进行训练。模型输出如下:
-年龄(连续变量)的系数为0.8,P-value=0.03
-性别(二分类,0代表女性,1代表男性)的系数为0.5,P-value=0.01
-购买历史(二元变量,1代表有,0代表无)的系数为1.2,P-value0.001
请解释这些系数的含义,并说明哪些特征对预测结果显著影响?如果P-value较大(如0.05),是否可以删除该特征?为什么?
2.题目:
假设你使用决策树模型进行分类,树的深度为3,节点分裂标准为基尼不纯度。以下是树的局部结构:
-根节点:特征A(取值10为左子树,否则右子树)
-左子树:特征B(取值5为叶节点,输出类别1;否则输出类别2)
-右子树:特征C(取值8为叶节点,输出类别2;否则输出类别3)
请解释该决策树如何进行分类?如果某节点的样本量小于10,是否应该停止分裂?为什么?
3.题目:
某医疗公司使用随机森林模型预测患者是否患有糖尿病。模型结果显示:
-特征X(血糖水平)的重要性为0.35
-特征Y(BMI)的重要性为0.25
-特征Z(年龄)的重要性为0.15
其他特
您可能关注的文档
最近下载
- 2026年春期四年级下册道德与法治知识点梳理(精编版+教材习题答案).pdf
- 公路工程集料试验规程(JTG3432-2024)宣贯.pptx VIP
- 儿童上呼吸道感染诊疗指南.docx VIP
- 四下语文【(答案)阅读理解与答题技巧(22考点+课文同类阅读)】.pdf VIP
- 【国开答案】国开电大专科《建筑施工技术》在线形考(形考任务1)试题.docx VIP
- 汇川《汇川技术H1UH2U-XP系列PLC指令及编程手册》.pdf
- 绍兴高铁北站TOD综合体项目(B、C1区块)交通枢纽配套工程环评报告表.pdf VIP
- 轨道交通网络安全风险剖析.docx VIP
- 2026年乳制品行业产业链分析报告.docx
- 人教部编版道德与法治小学五年级下册活动园答案.docx VIP
原创力文档

文档评论(0)