网站大量收购独家精品文档,联系QQ:2885784924

机器学习面试题目.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习⾯试题 ⽬ 1、逻辑斯特回归为什么要对特征进⾏离散化? 解析 : ⼯业界,很少直接将连续值作为逻辑回归模型的特征输⼊,⽽是将连续特征离散化为⼀系列0、1特征交给逻辑回归模型,这样做的 优势有以下⼏点 : a. 离散特征的增加和减少都很容易,易于模型的快速迭代 ; b. 稀疏向量内积乘法运算速度快,计算结果⽅便存储,容易扩展 ; c. 离散化后的特征对异常数据有很强的鲁棒性 :⽐如⼀个特征是年龄30是 1,否则0。如果特征没有离散化,⼀个异常数据 “年龄 300岁”会给模型造成很⼤的⼲扰 ; d. 逻辑回归属于⼴义线性模型,表达能⼒受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引⼊了⾮线性,能够提 升模型表达能⼒,加⼤拟合 ; e. 离散化后可以进⾏特征交叉,由M+N个变量变为M*N个变量,进⼀步引⼊⾮线性,提升表达能⼒; f. 特征离散化后,模型会更稳定,⽐如如果对⽤户年龄离散化,20-30作为⼀个区间,不会因为⼀个⽤户年龄长了⼀岁就变成⼀个完全 不同的⼈。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问; g. 特征离散化以后,起到了简化了逻辑回归模型的作⽤,降低了模型过拟合的风险。 李沐曾经说过 :模型是使⽤离散特征还是连续特征,其实是⼀个 “海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。 既可以离散化⽤线性模型,也可以⽤连续特征加深度学习。 2、LR和SVM的联系与区别? 解析 : 联系 : 1、LR和SVM都可以处理分类问题,且⼀般都⽤于处理线性⼆分类问题 ( 改进的情况下可以处理多分类问题) 2、两个⽅法都可以增加不同的正则化项,如l1、l2等等。所以 很多实验中,两种算法的结果是很接近的。 区别: 1、LR是参数模型,SVM是⾮参数模型。 2、从 ⽬标函数来看,区别 于逻辑回归采⽤的是logistic loss,SVM采⽤的是hinge loss,这两个损失函数的⽬的都是增加对分类影 响较⼤的数据点的权重,减少与分类关系较⼩的数据点的权重。 3、SVM的处理⽅法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。⽽逻辑回归通过⾮线性映射,⼤⼤减 ⼩了离分类平⾯较远的点的权重,相对提升了与分类最相关的数据点的权重。 4、逻辑回归相对来说模型更简单,好理解,特别是⼤规模线性分类时⽐较⽅便。⽽SVM的理解和优化相对来说复杂⼀些,SVM转化 为对偶问题后,分类只需要计算与少数⼏个⽀持向量的距离,这个 进⾏复杂核函数计算时优势很明显,能够⼤⼤简化模型和计算。 5、logic 能做的 svm能做,但可能 准确率上有问题,svm能做的logic有的做不了。 3、LR与线性回归的区别与联系? 解析 : LR 线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~ 1范围, 其⽬标函数从差平⽅和函数变为对数损失函数, 以提供最优 化所需导数 (sigmoid函数是softmax函数的⼆元特例, 其导数均为函数值的f* (1-f)形式)。 1)都是⼴义的线性回归 2)经典线性模型的优化 ⽬标函数是最⼩⼆乘,⽽逻辑回归则是负对数似然函数, 3)线性回归 整个实数域范围内进⾏预测,敏感度⼀致,⽽分类范围,需要 [0,1]。逻辑回归就是⼀种减⼩预测范围,将预测值限定 为[0,1]间的⼀种回归模型,因⽽对于这类问题来说** ,逻辑回归的鲁棒性⽐线性回归的要好**。 *4、请问 (决策树、Random Forest、Booting、Adaboot)GBDT和XGBoost的区别是什么? 解析 : 集成学习的集成对象是学习器. Bagging和Boosting属于集成学习的两类⽅法. Bagging⽅法有放回地采样同数量样本训练每个学习器, 然后 再⼀起集成(简单投票); Boosting⽅法使⽤全部样本(可调权重)依次训练每个学习器, 迭代集成(平滑加权). 决策树属于最常⽤的学习器, 其学习过程是从根建⽴树, 也就是如何决策叶⼦节点分裂. ID3/C4.5决策树⽤信息熵计算最优分裂, CART决策 树⽤基尼指数计算最优分裂, xgboost决策树使⽤⼆阶泰勒展开系数计算最优分裂. 下⾯所提到的学习器都是决策树: Bagging⽅法: 学习器间不存 强依赖关系, 学习器可并⾏训练⽣成, 集成⽅式⼀般为投票; Random Forest属于Bagging的代表, 放回抽样, 每个学习器随机选择部

文档评论(0)

189****4123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档