- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
幻灯片1 - 互联网搜索和挖掘论坛
Overview of Supervised Learning 吴高巍 目录 监督学习基础 线性模型和近邻法 统计决策理论 维数灾难 问题的统计模型和偏差-方差分解 函数估计的模型 函数估计 各种函数估计的例子 手写数字识别:给定数字图像的灰度信息,判断数字是属于0-9中的哪一类. 天气预报:给定大气云层的信息,判断明天的气温和降水概率. 各种函数估计的例子 通过蘑菇的各种属性(如伞和杆的形状,颜色等来判断蘑菇是否有毒) 记号说明 以下我们总是用N来代表训练数据的个数,用p来代表训练数据的维数。用 表示对x的估计。 为了不和p混淆,用Pr(x)来表示概率密度函数。 用小写字母表示训练数据的值,不加粗体的大写字母表示p维向量,加粗体的大写字母表示N维向量或矩阵。 监督学习基础 在监督学习中, 我们的目标是要通过训练来完成函数估计的任务. 通过观察,构造一个训练集T=(xi,yi), i=1,…,N 训练集中的数据称为训练数据,也称为训练样本,单个数据称为样本点。 有一个学习算法,把训练集交给这个学习算法,它产生对预测规则的一个估计。 学习算法可以根据估计的规则和真实的规则之间的误差(通过样本点上输出的yi来衡量)修改它的估计。 数学表示 我们把训练集T中的(xi,…,xp)看作是p维欧氏空间中的点集。要求预测的规则看作是定义在p维欧氏空间中的一个函数Y=f(X)。 我们的目标是在整个p维的欧氏空间上,使用训练集T来逼近这个函数f(X)。 通过这样的转换,我们就可以利用欧氏空间的几何性质和概率推理的工具。 考虑的问题 我们考虑两种问题,分别为输出取值于有限离散集合和连续域的问题。 有限离散集合的问题总可以转换为分类Y∈{0,1,…,k},所以针对离散集合,我们只讨论这样的分类问题。 对于连续域的问题,我们讨论y∈R的问题,称之为回归问题。 线性模型 线性模型是统计学习中最基础的模型. 给定输入向量X=(X1,X2,…,Xp,1), 通过模型 预测Y. 整个线性模型共有p+1个参数,所以大概不需要很多的数据,就可以拟合一个线性模型。 最小二乘法 训练线性(回归)模型的最常用方式是最小二乘法。 最小二乘法即最小化以下的平方误差准则: 对于参数 ,平方误差准则是一个二次函数,所以它的最小值一定存在。这是选用平方误差准则的一个重要原因。 最小二乘法 简单求导就可得到最小二乘法的解,在整个训练集上,最小二乘法的解为: 把 代回线性模型,就可以得到一个线性的预测或叫估计。 线性模型示例 k近邻法 k近邻法是另一种最基础的学习方法。 k近邻回归如下定义: k近邻回归就是对一个样本点x,取训练集中离它最近的k个近邻样本点,求它们的输出y的均值,以之来估计x对应的输出。 k近邻示例 k近邻的讨论 表面上看,k近邻只有一个参数k,但实际上,k近邻的参数是很多的。 直观上说,如果假设样本被划分成N/k个不重叠的部分,每个部分之间都有比较大的距离,那么每个部分就定义了一个k近邻模型的参数(其均值),则此时k近邻规则有N/k个参数。 k近邻和线性模型 k近邻和线性模型代表了统计学习中的两个极端:最松泛的指定模型和最严格的限制模型。 直观的讲,假设数据服从的分布比较规则,比如每类数据服从一个正态分布,那么线性模型可能要比k近邻更好。 反过来,如果数据所服从的分布非常不规则,那么k近邻模型就会工作得更出色。 很大一部分统计学习算法都是对线性模型和k近邻的扩展。 统计决策理论 下面我们用统计的方式来定义学习问题。 设X∈Rp为实值随机输入向量, Y∈R为随机输出值。X, Y有联合概率密度Pr(X,Y),寻找函数f(X),通过输入的X预测Y。 于是我们需要定义损失函数L(Y,f(X))。为了解决不同的问题,可以定义各种损失函数。在回归中最常用的损失函数是平方误差准则 L(Y,f(X)) = (Y-f(X))2 条件期望 使用条件概率公式Pr(X,Y)=Pr(Y|X)Pr(X)来考察数学期望: 统计决策理论:回归 我们在整个分布上检查平方误差准则 可以在每一点上求最优的f(x): 这样得到的解就是条件期望 统计决策理论:回归 得到的结果是条件期望,也叫做回归函数. ,这也就是我们的目标。 有了这个回归函数,我们再来看 k近邻: 在k近邻中,用均值逼近期望,用点的邻域逼近点。当k/N-0且N,k-∞时,可以证明 尽管k近邻有好的渐进性质,但是它的收敛速度是随着维数的增高而下降的。 统计决策理论:回归 我们来看如何把线性模型放进统计决策理论的框架: 假设回归函数 代回平方误差准则 对β求导,可以得到 用样本均值替代数学期望,我们就回
您可能关注的文档
最近下载
- PFF系列手动平行闸板阀_中英.pdf VIP
- 酒店收益管理 配套课件.ppt VIP
- 托福听力tpo40 全套对话讲座原文+题目+答案+译文.pdf VIP
- 托福听力tpo39 section2 对话讲座原文+题目+答案+译文.pdf VIP
- 酒店收益管理培训课件..ppt VIP
- Monaco5.11用户培训手册.pdf VIP
- 托福听力tpo64 section1 对话讲座原文+题目+答案+译文.docx VIP
- 托福听力tpo65section1 对话讲座原文+题目+答案+译文.docx VIP
- 托福听力tpo68 section1 对话讲座原文+题目+答案+译文.pdf VIP
- 酒店收益管理课件.pptx VIP
文档评论(0)