厦门大学机器学习考试题.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一题 判断题(10分,每小题1分) 逻辑斯蒂回归模型可以用来做分类,但是 SVM不能用来做回归。() TOC \o 1-5 \h \z 训练数据较少时更容易发生过拟合。 () 如果回归函数 A比B简单,则A 一定会比B在测试集上表现更好。() 在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。 () ⑸ 在AdaBoost算法中,所有被错分的样本的权重更新比例相同。 () ⑹ Boosting的一个优点是不会过拟合。 () 梯度下降有时会陷于局部极小值,但 EM算法不会。() SVM对噪声(如来自其他分布的噪声样本)鲁棒。 () 经验风险最小化在一定条件下与极大似然估计是等价的。 () 在回归分析中,最佳子集选择可以做特征选择; Lasso模型也可以实现特征选择。 () 第二题统计学习方法的三要素(10分) (5分)H是一个函数空间,p(x,y)是X 丫上一个概率测度,D {Xi^}:!是X 丫的一个 子集(采样),(f) x 丫 L(x,y, f (x,y)dp,- (f) i 1 L(x, y , f (Xi, yi)), x 丫 n fH arg min (f) , fz arg min _(f),请问: f H f H (2分)(fz) (fH)随着N增大而增大吗?为什么? (3分)(fz) (J)随着H增大而增大吗?为什么? (5分)比较感知机、逻辑斯蒂回归模型、 AdaBoost和SVM的损失函数。 第三题 产生式模型和判别式模型 (10分) (5分)解释产生式模型和判别式模型,并分析二者的不同点; 列出三种判别式模型(3分)和两种产生式模型(2分) 第四题 EM and Naive Bayes (15 分) (5分)概述EM算法的用途及其主要思想; (10分)EM算法可以用到朴素贝叶斯法的非监督学习,写出其算法。 (10 分)入 (10 分) 入=(A, B, n,状态集合Q= {1,2,3},观测集合V= {红,白}, 考虑盒子和球模型 0.5 0.2 0.3 0.5 0.5 A 0.3 0.5 0.2 , B 0.4 0.6 0.2 0.3 0.5 0.7 0.3 设 T=3 , 0=(红、 白、 红), 试用前向算法计算1 P(O| 入). ,n= (0.2,0.4,0.4) ?? 第六题SVM (15分) 考虑利用线性支持向量机对如下两类可分数据进行分类: +1 : (1,1), (2,2), (2,0) -1 : (0,0), (1,0), (0,1) [1] (4分) [2] (3分) [3] (8分) 在图中做出这6个训练点,构造具有最优超平面和最优间隔的权重向量; 哪些是支撑向量? 通过寻找拉格朗日乘子 i来构造在对偶空间的解,并将它与 [1]中的结果比较。 第七题Logistic回归模型(15分) 如图1(a)所示,数据采用简化的线性 logistic回归模型进行两类分类,即, 为了简化,不采用偏差 wo,训练数据可以被完全分开(训练误差为 0,如图1(b)所示的L1)。 [1] (8 [1] (8分)考虑一个正则化的方法,即最大化 log P yi Xi,w^w2 — w;,注意只有??被惩 i 1 2 罚。则当C很大时,如图1(b)所示的4个决策边界中,哪条线可能是由该正则方法得到 的? L2、L3和L4可以通过正则2?得到吗?简要说明理由。 N [2](7分)如果我们将正则项给出Li范式,即最大化 log P y Xj,w,w [2] (7分)如果我们将正则项给出 i 1 则随着C增大,下面哪种情形可能出现(单选) _?注:简要说明理由 (A) ??将变成0,然后??也将变成0。 (B)??将变成0,然后??也将变成0。 (C) ??和??将同时变成0。 (D)两个权重都不会变成 0,只是随着C的增大而减小为0。 第八题 AdaBoost ( 15分) 考虑如下图2所示的训练样本,其中’X和’毋别表示正样本和负样本。采用 AdaBoost算 法对上述样本进行分类。在 Boosting的每次迭代中,选择加权错误率最小的弱分类器。假 设采用的弱分类器为平行两个坐标轴的线性分类器。 ( 4分)在图2中标出第一次迭代选择的弱分类器( L1),并给出决策面的 ‘ ■和面。 (4分)在图2中用圆圈标出在第一次迭代后权重最大的样本,其权重是多少? ( 4分)第一次迭代后权重最大的样本在经过第二次迭代后权重变为多少? (3分)强分类器为弱分类器的加权组合。则在这些点中,存在被经过第二次迭代后的 强分类器错分的样本吗?给出简短理由。

文档评论(0)

dianxin1241 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档