机器学习面试题目.pdf

下载文档

1
0
约1.22万字
约 9页
2023-09-03 发布于湖北
举报
版权申诉
保障服务

机器学习面试题目.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习⾯试题⽬ 1、逻辑斯特回归为什么要对特征进⾏离散化？解析：⼯业界，很少直接将连续值作为逻辑回归模型的特征输⼊，⽽是将连续特征离散化为⼀系列0、1特征交给逻辑回归模型，这样做的优势有以下⼏点： a. 离散特征的增加和减少都很容易，易于模型的快速迭代； b. 稀疏向量内积乘法运算速度快，计算结果⽅便存储，容易扩展； c. 离散化后的特征对异常数据有很强的鲁棒性：⽐如⼀个特征是年龄30是 1，否则0。如果特征没有离散化，⼀个异常数据 “年龄 300岁”会给模型造成很⼤的⼲扰； d. 逻辑回归属于⼴义线性模型，表达能⼒受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引⼊了⾮线性，能够提升模型表达能⼒，加⼤拟合； e. 离散化后可以进⾏特征交叉，由M+N个变量变为M*N个变量，进⼀步引⼊⾮线性，提升表达能⼒； f. 特征离散化后，模型会更稳定，⽐如如果对⽤户年龄离散化，20-30作为⼀个区间，不会因为⼀个⽤户年龄长了⼀岁就变成⼀个完全不同的⼈。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问； g. 特征离散化以后，起到了简化了逻辑回归模型的作⽤，降低了模型过拟合的风险。李沐曾经说过：模型是使⽤离散特征还是连续特征，其实是⼀个 “海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化⽤线性模型，也可以⽤连续特征加深度学习。 2、LR和SVM的联系与区别？解析：联系： 1、LR和SVM都可以处理分类问题，且⼀般都⽤于处理线性⼆分类问题（改进的情况下可以处理多分类问题） 2、两个⽅法都可以增加不同的正则化项，如l1、l2等等。所以很多实验中，两种算法的结果是很接近的。区别： 1、LR是参数模型，SVM是⾮参数模型。 2、从⽬标函数来看，区别于逻辑回归采⽤的是logistic loss，SVM采⽤的是hinge loss，这两个损失函数的⽬的都是增加对分类影响较⼤的数据点的权重，减少与分类关系较⼩的数据点的权重。 3、SVM的处理⽅法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器。⽽逻辑回归通过⾮线性映射，⼤⼤减⼩了离分类平⾯较远的点的权重，相对提升了与分类最相关的数据点的权重。 4、逻辑回归相对来说模型更简单，好理解，特别是⼤规模线性分类时⽐较⽅便。⽽SVM的理解和优化相对来说复杂⼀些，SVM转化为对偶问题后,分类只需要计算与少数⼏个⽀持向量的距离,这个进⾏复杂核函数计算时优势很明显,能够⼤⼤简化模型和计算。 5、logic 能做的 svm能做，但可能准确率上有问题，svm能做的logic有的做不了。 3、LR与线性回归的区别与联系？解析： LR 线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~ 1范围, 其⽬标函数从差平⽅和函数变为对数损失函数, 以提供最优化所需导数（sigmoid函数是softmax函数的⼆元特例, 其导数均为函数值的f* (1-f)形式）。 1）都是⼴义的线性回归 2）经典线性模型的优化⽬标函数是最⼩⼆乘，⽽逻辑回归则是负对数似然函数， 3）线性回归整个实数域范围内进⾏预测，敏感度⼀致，⽽分类范围，需要 [0,1]。逻辑回归就是⼀种减⼩预测范围，将预测值限定为[0,1]间的⼀种回归模型，因⽽对于这类问题来说** ，逻辑回归的鲁棒性⽐线性回归的要好**。 *4、请问（决策树、Random Forest、Booting、Adaboot）GBDT和XGBoost的区别是什么？解析：集成学习的集成对象是学习器. Bagging和Boosting属于集成学习的两类⽅法. Bagging⽅法有放回地采样同数量样本训练每个学习器, 然后再⼀起集成(简单投票); Boosting⽅法使⽤全部样本(可调权重)依次训练每个学习器, 迭代集成(平滑加权). 决策树属于最常⽤的学习器, 其学习过程是从根建⽴树, 也就是如何决策叶⼦节点分裂. ID3/C4.5决策树⽤信息熵计算最优分裂, CART决策树⽤基尼指数计算最优分裂, xgboost决策树使⽤⼆阶泰勒展开系数计算最优分裂. 下⾯所提到的学习器都是决策树: Bagging⽅法: 学习器间不存强依赖关系, 学习器可并⾏训练⽣成, 集成⽅式⼀般为投票; Random Forest属于Bagging的代表, 放回抽样, 每个学习器随机选择部