第三部分统计学习基础.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 三 部 分 : 统 计 学 习 基 础有监督学习概述[ESL] Chp2回归分析[ESL] Chp3[Wasserman] Chp13模型评估与选择[ESL] Chp7/8 [ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “The Elements of Statistical Leanring” , 范 明 , 柴 玉 梅 , 昝 红 英 译 《 统 计 学 习 基 础? 数 据 挖 掘 、 推 理 与 预 测 》 , 电 子 工 业 出 版 社 ,2004例 : 一 个 回 归 例 子例: yf x0.50.4sin2x? 0.05然后对每个数据加上高斯噪声,目标: M M j f x,xx? x0 1 M j j ?0通过最小化残差的平方和(RSS ) n 2 RSSf x ,? y? i i i ?1拟合 f例 : 一 个 回 归 例 子 ( 续 ) 样 本 数 据 点 拟 合 得 到 的 曲 线 3阶多项式拟合 1阶多项式拟合例 : 一 个 回 归 例 子 ( 续 ) 训练正确率和测试误差 10 阶多项式拟合一 些 术 语有监督学习: X给定包含输入特征 和对应响应的训练样本,学习Y 与 Y i i X 之间的关系对新的输入x ,预测其响应y如果输出值Y 的类型是连续值: 回归根 据 公 司 的 业 绩 和 经 济 学 数 据 , 预 测 今 后6 个 月 的 股 票 价 格根 据 患 者 血 液 的 红 外 光 谱 , 估 计 糖 尿 病 患 者 血 液 中 葡 萄 糖 的 含 量如果输出值Y 为离散值: 分类根据数字图像,识别手写的邮政编码数据根据邮件中单词和字符的比例,识别email 是否为垃圾邮 件目 标 根据训练数据,正确预测未见过的测试样本理解哪些输入影响输出怎样评价预测的质量哲 学 思 想理解各种技术背后的基本思想,以知道如何和在 什么情况采用这些技术先理解比较简单的方法,以便掌握更复杂的技术正确评价方法的性能很重要,以便知道该方法在 什么情况下工作得好,在什么情况下工作得不好 [ 简单的方法通常和那些很华丽时髦的方法工作得 一样好!]一 个 例 子 2 IR 上 从 未 知 分 布 产 生 的200 点 , 其 中 类 别 G 绿 , 红 各100 个 点 。 我 们 能 建 立 一 个 规 则 , 预 测 将 来 的 点 的 颜 色 的 规 则 吗 ?比 较 两 种 最 简 单 的 预 测 方 法线性回归k 近邻法(k - nearest neighbors, knn )线 性 回 归 X1, X , ?, X输入p 维向量,扩展成p+1维:? 1 p向量均为列向量类别G 绿时,Y0;否则Y1 。Y 用X 的线性函数来建模 p T Yf X X? X0 j j j ?1最简单、也是最常用的模型线 性 回 归利用最小二乘法,通过最小化残差的平方和(RSS) n n 2 2 T T RSSyf xyx? yXyXi i i i i ?1 i ?1得到 Tmin RSSX y 0? T如果 X X 是非奇异的,则唯一解为 ?1 T T X X X y 则学习得到 f 的估计为 T? f xx线 性 回 归 T x yf xx对将来的点 的预测为 0 0 0 0? if y x0.5 红 0G x0绿 if y x0.5 0? 在训练集上错误率为14%比随机猜测强的多但还是有很多错误 T决 策 边 界是 线 性 的 x : x? 0.5 采用更灵活的模型能得到更好的结果?knn观察其邻居,采取投票的方式 1Y xy 0 i k x ?N x? i k 0 N x 其中 为x 的邻域,由训练样本中最邻近x k 0 0 0 的k 个点x 定义( k- 近 邻 ) i如果在观测x 邻域中某一类明显占优势,则观测 样本也更可能属于该类。分类规则为邻域成员 的多数票? 红 if y x0.5 0G x0绿 if y x0.5 0 ?15- 近 邻 分 类 : 训 练 集 上 的 错 误 率 为12%过 拟 合knn 比线性回归表现稍好但我们应警惕过拟合overfitting 问题在训练集上模型工作得很好(有时甚至100% 正确), 但忘记了训练集是一个随机过程的输出,从而训练好 的模型可能在其它情况(另外的测试集)工作欠佳1nn?1- 近 邻 分 类 。 没 有 样 本 被 误 分 , 判 决 边 界 更 加 不 规 则knn 中k 的 选 择 ?在测试集上,哪个模型表现最佳? 方 法 预 测 误 差 训 练 集 测 试 集 0.14 0.185 线 性 回 归 Knn15 0.12 0.175 Knn1 0.0 0.185k 的选择:

文档评论(0)

精品文档专区 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档