幻灯片1 - 互联网搜索和挖掘论坛.pptVIP

下载本文档

2
0
约4.14千字
约 40页
2018-06-14 发布于福建
举报
版权申诉

幻灯片1 - 互联网搜索和挖掘论坛.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

幻灯片1 - 互联网搜索和挖掘论坛

Overview of Supervised Learning 吴高巍目录监督学习基础线性模型和近邻法统计决策理论维数灾难问题的统计模型和偏差-方差分解函数估计的模型函数估计各种函数估计的例子手写数字识别:给定数字图像的灰度信息,判断数字是属于0-9中的哪一类. 天气预报:给定大气云层的信息,判断明天的气温和降水概率. 各种函数估计的例子通过蘑菇的各种属性（如伞和杆的形状,颜色等来判断蘑菇是否有毒）记号说明以下我们总是用N来代表训练数据的个数，用p来代表训练数据的维数。用表示对x的估计。为了不和p混淆，用Pr(x)来表示概率密度函数。用小写字母表示训练数据的值，不加粗体的大写字母表示p维向量，加粗体的大写字母表示N维向量或矩阵。监督学习基础在监督学习中, 我们的目标是要通过训练来完成函数估计的任务. 通过观察，构造一个训练集T=(xi,yi), i=1,…,N 训练集中的数据称为训练数据，也称为训练样本,单个数据称为样本点。有一个学习算法，把训练集交给这个学习算法，它产生对预测规则的一个估计。学习算法可以根据估计的规则和真实的规则之间的误差（通过样本点上输出的yi来衡量）修改它的估计。数学表示我们把训练集T中的(xi,…,xp)看作是p维欧氏空间中的点集。要求预测的规则看作是定义在p维欧氏空间中的一个函数Y=f(X)。我们的目标是在整个p维的欧氏空间上,使用训练集T来逼近这个函数f(X)。通过这样的转换，我们就可以利用欧氏空间的几何性质和概率推理的工具。考虑的问题我们考虑两种问题，分别为输出取值于有限离散集合和连续域的问题。有限离散集合的问题总可以转换为分类Y∈{0,1,…,k}，所以针对离散集合，我们只讨论这样的分类问题。对于连续域的问题，我们讨论y∈R的问题，称之为回归问题。线性模型线性模型是统计学习中最基础的模型. 给定输入向量X=(X1,X2,…,Xp,1), 通过模型预测Y. 整个线性模型共有p+1个参数，所以大概不需要很多的数据，就可以拟合一个线性模型。最小二乘法训练线性（回归）模型的最常用方式是最小二乘法。最小二乘法即最小化以下的平方误差准则：对于参数，平方误差准则是一个二次函数，所以它的最小值一定存在。这是选用平方误差准则的一个重要原因。最小二乘法简单求导就可得到最小二乘法的解，在整个训练集上，最小二乘法的解为：把代回线性模型，就可以得到一个线性的预测或叫估计。线性模型示例 k近邻法 k近邻法是另一种最基础的学习方法。 k近邻回归如下定义： k近邻回归就是对一个样本点x，取训练集中离它最近的k个近邻样本点，求它们的输出y的均值，以之来估计x对应的输出。 k近邻示例 k近邻的讨论表面上看，k近邻只有一个参数k，但实际上，k近邻的参数是很多的。直观上说，如果假设样本被划分成N/k个不重叠的部分，每个部分之间都有比较大的距离，那么每个部分就定义了一个k近邻模型的参数（其均值），则此时k近邻规则有N/k个参数。 k近邻和线性模型 k近邻和线性模型代表了统计学习中的两个极端：最松泛的指定模型和最严格的限制模型。直观的讲，假设数据服从的分布比较规则，比如每类数据服从一个正态分布，那么线性模型可能要比k近邻更好。反过来，如果数据所服从的分布非常不规则，那么k近邻模型就会工作得更出色。很大一部分统计学习算法都是对线性模型和k近邻的扩展。统计决策理论下面我们用统计的方式来定义学习问题。设X∈Rp为实值随机输入向量, Y∈R为随机输出值。X, Y有联合概率密度Pr(X,Y)，寻找函数f(X)，通过输入的X预测Y。于是我们需要定义损失函数L(Y,f(X))。为了解决不同的问题，可以定义各种损失函数。在回归中最常用的损失函数是平方误差准则 L(Y,f(X)) = (Y-f(X))2 条件期望使用条件概率公式Pr(X,Y)=Pr(Y|X)Pr(X)来考察数学期望：统计决策理论：回归我们在整个分布上检查平方误差准则可以在每一点上求最优的f(x)：这样得到的解就是条件期望统计决策理论：回归得到的结果是条件期望,也叫做回归函数. ，这也就是我们的目标。有了这个回归函数,我们再来看 k近邻：在k近邻中，用均值逼近期望，用点的邻域逼近点。当k/N-0且N,k-∞时，可以证明尽管k近邻有好的渐进性质，但是它的收敛速度是随着维数的增高而下降的。统计决策理论：回归我们来看如何把线性模型放进统计决策理论的框架：假设回归函数代回平方误差准则对β求导，可以得到用样本均值替代数学期望，我们就回