(word版)机器练习题与答案.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
精品文档 精品文档 PAGE 精品文档 《机器学习》练习题与解答 小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。 1)回归和分类都是有监督学习问题 [单选题][ 必答题] ○ 对 ○ 错 参考答案:对。 解析:这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练数据集中推断出函数的机器学习任务。 有监督学习和无监督学习的区别是: 机器学习算法的图谱如下: 在回归问题中,标签是连续值;在分类问题中,标签是离散值。具体差别请看周志华《机器学习》书中的例子,一看便懂: 背景同上题。请判断 2)回归问题和分类问题都有可能发生过拟合 [单选题][ 必答题] ○ 对 ○ 错 答案:对 解析:这题有两个同学做错。过拟合的英文名称是Over-fitting(过拟合)。为了说清楚“过”拟合,首先说一下“拟合” 【拟合的几何意义】: 从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。一个直观的例子,是下面的电阻和温度的例子。 我知道在物理学中,阻和温度是性的关系,也就是R=at+b。在我有一系列关于“温度”和“阻”的量。一个最的思路,取两量,解一个性方程,就可以求 出系数a、b了!但是理想是丰的,是残酷的!由于量差等的存在,我每次量得到的温度和阻都是有差的!因此,了提高量精度,我会量多次,得到多的,就相当于得到二平面上的多个点,我的目是找一条直,条直尽可能地接近各个量得到的点。 合的数学意: 在数学的意上,所合 (fit) 是指已知某函数的若干离散函数 {f1,f2, ?,fn}(未必都是 准确,有个可能是近似甚至),通整函数中若干待定系数  f(  λ1,λ2,?,λn), 使得函数与已知点集的差 (最小二乘意)最小。 【合】 古人云“犹不及”。所“”合,名思,就是在学的集合(也就是集)上 合的很不,但是有点了,什么意思?他能在学的数据上判断的很准,但是如果再扔 它一系列新的没学的数据,它判断的非常差!比如古候有个教先生教小明写数字, “一”字是一横,“二”字是两横,“三”字是三横。然后,小明,老你不用教我写数字 了,我都会写。老很惊,那你“万”字怎么写,果小明在上写下了无数个“横”。。 用台湾大学林田老的,合是“呆子”,“牛角尖”。如果用于复的模型 来刻画的,就有可能得到“明”的果。比如下面房子的价格 (price) size之关系的(来源于 andrewng的ppt)  和 通过五组数据,我们通过肉眼直观地看,可以初步判断房屋的价格和size之间是二次函数的关系,也就是中间这幅图所拟合的情况。而右边这幅图中,自作聪明地用了一个四次函数来拟 和这五组数据,虽然在已知的五个数据上都是100%准确,却得出了“当房子的size大于某个值时房子的价格会随着房屋面积增大而越来越低”这样的荒谬结论!这样的是过拟合。左边这个用一条直线来拟合但是拟合的误差很大也不置信,这叫“欠拟合”。 在周志华老师的书中,举的例子是这样的: 发现了没有?周志华老师用的是“是不是树叶”这样的分类问题举例,andrewng用的是“房价和房屋面积的关系”这样的回归问题举例。这说明,分类和回归都有可能过拟合。 3. 背景同上题。请判断 3)一般来说,回归不用在分类问题上,但是也有特殊情况,比如logistic 回归可以用来解决 0/1 分类问题[单选题][ 必答题] ○ ○  对 错 答案:对 解析:Logistic 回归是一种非常高效的分类器。它不仅可以预测样本的类别,还可以计算出分 类的概率信息,在一线互联网公司中广泛的使用,比如应用于CTR预估这样的问题中。这里我们不详细说明其原理,后续课程会讲到。很多人对它的名字会产生疑问,挂着“回归”的头,卖的是“分类”的肉,别扭的慌。 其实我们不用纠结它到底是“回归”,还是“分类”,非得二选一。可以参考一下百度百科关于“logistic回归”的词条 其中举了一个富士康员工“自杀的日期”与“累计自杀人数”之间关系的例子,并通过logistic回归分析来拟合出一条曲线。这说明logistic回归本身也有一定的解决“回归”问题的能力,只是工业界都用它来解决分类问题。 背景同上题。请判断 4)对回归问题和分类问题的评价 最常用的指标都是 准确率和召回率 [单选题][ 必答题] ○ 对 ○ 错 答案:错 解析:本题有四个同学选错。这道题的用意是提醒大家注意,对回归问题的评价指标通常并不是准确率和召回率,从“房价与房屋面积之间关系预测”这个例子来说,一个已知数据点离预 测的曲线之间的距离是多少时能够判定为“准确”,距离为多少时判定为“不准确”?没办法区别。准确率对于度量回归问题的效果其实并不

文档评论(0)

150****0902 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档