斯坦福大学公开课：机器学习课程note1翻译.docVIP

下载本文档

6
0
约1.24万字
约 24页
2015-12-13 发布于安徽
举报
版权申诉

斯坦福大学公开课：机器学习课程note1翻译.doc

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CS229 Lecture notes Andrew Ng 监督式学习让我们开始先讨论几个关于监督式学习的问题。假设我们有一组数据集是波特兰，俄勒冈州我们可以在坐标图中画出这些数据：给出这些数据，怎么样我们才能用一个关于房子面积的函数预测出其他波特兰的房子的价格。为了将来使用的方便，我们使用表示“输入变量”（在这个例子中就是房子的面积），也叫做“输入特征”，表示“输出变量”也叫做“目标变量”就是我们要预测的那个变量（这个例子中就是价格）。一对（）叫做一组训练样本，并且我们用来学习的--- 一列训练样本｛（）；i=1，…，m｝--叫做一个训练集。注意：这个上标“（i）”在这个符号表示法中就是训练集中的索引项，并不是表示次幂的概念。我们会使用χ表示输入变量的定义域，使用表示输出变量的值域。在这个例子中χ=Y=R 为了更正式的描述我们这个预测问题，我们的目标是给出一个训练集，去学习产生一个函数h：X→ Y 因此h(x)是一个好的预测对于近似的y。由于历史性的原因，这个函数h被叫做“假设”。预测过程的顺序图示如下：当我们预测的目标变量是连续的，就像在我们例子中的房子的价格，我们叫这一类的学习问题为“回归问题”，当我们预测的目标变量仅仅只能取到一部分的离散的值（就像如果给出一个居住面积，让你去预测这个是房子还是公寓，等等），我们叫这一类的问题是“分类问题” PART I Linear Reression 为了使我们的房子问题更加有趣，我们假设我们知道每个房子中有几间卧室：在这里，x是一个二维的向量属于。例如，就是训练集中第i个房子的居住面积，是训练集中第i个房子的卧室数量。（通常情况下，当设计一个学习问题的时候，这些输入变量是由你决定去选择哪些，因此如果你是在Portland收集房子的数据，你可能会决定包含其他的特征，比如房子是否带有壁炉，这个洗澡间的数量等等。我们以后可能会涉及到更多变量的问题，现在我们先按照给定的变量的讲解。）为了完成监督是学习，我们必须决定怎么样去描述我们的函数/假设 h 在计算机中。有一个最初的选择，我们把y近似的看成是x的一个线性函数：在这里，θ(i)是参数（也叫做权重）是y关于x的线性函数之间的参数。当y与x之间没有其他影响因素的时候我们将会舍弃下标θ，通常写为h(x)。为了简化我们的标注，我们习惯上令=1（这个是截距），因此可以写成右边的θ和x都是向量并且这里n是输入的变量的个数（不是计算x0的个数）。现在给定一个训练集，我们怎么选择、学习、计算权重θ？一个合理的方法类似与让尽可能的接近于y，至少对于我们所训练的数据都是适合的。使这个近似形式化，我们定义一个测量函数去记录对于每一个θ，h(x(i))有多接近于y(i)。我们定义一个代价函数如果你以前了解过线性回归，你会认出这个和最小二乘法比较近似。不管你以前是否看过他，让我们继续，并且我们最终会证明这个知识众多的算法大家庭中的一个特例而已。 1 LMS algorithm(Least Mean Square 最小均方差算法) 我们想去选择一个θ使得J(θ)取的最小值。为了这样做，我们用一个寻找算法给θ赋一个初值（随机的），然后不断的重复改变θ的大小以便是J(θ)更小，直到我们找到一个θ是的J(θ)达到我们期望的最小值。特别的，我们考虑“梯度下降算法”，用下面这个公式寻找θ。（这个更新过程同时的对所有的j=0…n执行）α表示“学习速率”。这是一个自然算法，反复的对J在减小的方向上迈出一大步直到最小。为了执行这个算法，我们需要做的工作就是计算出等号右边的偏导数。首先我们计算出一组（x，y）样本的偏导数，这是我们可以先忽略掉对J的求和。（运用求导定律很容易就能求出导数）对于单一的训练样本，这里给出了更新的规则：这个规则就叫做LMS更新规则（LMS是least mean squares的缩写）也被叫做Widrow-Hoff（就是Widrow和Hoff这两位大仙发明的这个算法。参考链接：/link?url=bmZNDF9xV8GMtSE_rk9eV_9UbE9wGrnAdYqyf876U3Lf4IKfkRZVCoACvxF2dm1zmRDu1UUYzW9nQs-8oPWhu_）学习规则。这个算法有几个自然的和直观的特性。例如，更新的量级正比于误差项 (y(i) ? h_(x(i)))；因此，当我们遇到一组训练样本的预测值非常接近他的真实值的时候，我们会发现在更新过程中权重项基本不变；相反的这个权重项会有一个大的变化当我们的预测值hθ(x(i))有大的误差的时候（例如预测值和真实值y(i)差别非常大的时候）我们推断出了当有一个训练样本是的LMS算法。我们有两种方法可以让这个算法去适应多于一个训