第三部分统计学习基础.pptVIP

下载本文档

6
0
约6.36千字
约 45页
2018-04-18 发布于广东
举报
版权申诉

第三部分统计学习基础.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第三部分 : 统计学习基础有监督学习概述[ESL] Chp2回归分析[ESL] Chp3[Wasserman] Chp13模型评估与选择[ESL] Chp7/8 [ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “The Elements of Statistical Leanring” , 范明 , 柴玉梅 , 昝红英译《统计学习基础? 数据挖掘、推理与预测》 , 电子工业出版社 ,2004例 : 一个回归例子例: yf x0.50.4sin2x? 0.05然后对每个数据加上高斯噪声,目标: M M j f x,xx? x0 1 M j j ?0通过最小化残差的平方和(RSS ) n 2 RSSf x ,? y? i i i ?1拟合 f例 : 一个回归例子 ( 续 ) 样本数据点拟合得到的曲线 3阶多项式拟合 1阶多项式拟合例 : 一个回归例子 ( 续 ) 训练正确率和测试误差 10 阶多项式拟合一些术语有监督学习: X给定包含输入特征和对应响应的训练样本,学习Y 与 Y i i X 之间的关系对新的输入x ,预测其响应y如果输出值Y 的类型是连续值: 回归根据公司的业绩和经济学数据 , 预测今后6 个月的股票价格根据患者血液的红外光谱 , 估计糖尿病患者血液中葡萄糖的含量如果输出值Y 为离散值: 分类根据数字图像,识别手写的邮政编码数据根据邮件中单词和字符的比例,识别email 是否为垃圾邮件目标根据训练数据,正确预测未见过的测试样本理解哪些输入影响输出怎样评价预测的质量哲学思想理解各种技术背后的基本思想,以知道如何和在什么情况采用这些技术先理解比较简单的方法,以便掌握更复杂的技术正确评价方法的性能很重要,以便知道该方法在什么情况下工作得好,在什么情况下工作得不好 [ 简单的方法通常和那些很华丽时髦的方法工作得一样好!]一个例子 2 IR 上从未知分布产生的200 点 , 其中类别 G 绿 , 红各100 个点。我们能建立一个规则 , 预测将来的点的颜色的规则吗 ?比较两种最简单的预测方法线性回归k 近邻法(k - nearest neighbors, knn )线性回归 X1, X , ?, X输入p 维向量,扩展成p+1维:? 1 p向量均为列向量类别G 绿时,Y0;否则Y1 。Y 用X 的线性函数来建模 p T Yf X X? X0 j j j ?1最简单、也是最常用的模型线性回归利用最小二乘法,通过最小化残差的平方和(RSS) n n 2 2 T T RSSyf xyx? yXyXi i i i i ?1 i ?1得到 Tmin RSSX y 0? T如果 X X 是非奇异的,则唯一解为 ?1 T T X X X y 则学习得到 f 的估计为 T? f xx线性回归 T x yf xx对将来的点的预测为 0 0 0 0? if y x0.5 红 0G x0绿 if y x0.5 0? 在训练集上错误率为14%比随机猜测强的多但还是有很多错误 T决策边界是线性的 x : x? 0.5 采用更灵活的模型能得到更好的结果?knn观察其邻居,采取投票的方式 1Y xy 0 i k x ?N x? i k 0 N x 其中为x 的邻域,由训练样本中最邻近x k 0 0 0 的k 个点x 定义( k- 近邻 ) i如果在观测x 邻域中某一类明显占优势,则观测样本也更可能属于该类。分类规则为邻域成员的多数票? 红 if y x0.5 0G x0绿 if y x0.5 0 ?15- 近邻分类 : 训练集上的错误率为12%过拟合knn 比线性回归表现稍好但我们应警惕过拟合overfitting 问题在训练集上模型工作得很好(有时甚至100% 正确), 但忘记了训练集是一个随机过程的输出,从而训练好的模型可能在其它情况(另外的测试集)工作欠佳1nn?1- 近邻分类。没有样本被误分 , 判决边界更加不规则knn 中k 的选择 ?在测试集上,哪个模型表现最佳? 方法预测误差训练集测试集 0.14 0.185 线性回归 Knn15 0.12 0.175 Knn1 0.0 0.185k 的选择: