[工学]统计机器学习.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]统计机器学习

统计机器学习 王 珏 机器学习与人工智能 机器学习 人工智能与统计机器学习 统计机器学习 Duda Hart 统计机器学习的统计框架 发展的线索 样本数量:趋于无穷大。有限样本理论,泛化误差1-?概率成立。 线性判别,感知机:线性不可分,M.Minsky的批评。非线性算法BP,孤立事件,问题没有解决。线性空间。 损失函数:根据问题定义损失函数。 精心设计实验获得数据(手写字符识别)的理论:高维涌现的数据(网络、生物、金融)。包含多个有意义解答。 从数据建立模型:经验知识和经验模型的考虑。 统计机器学习 Valiant Vapnik Vapnik的贡献(1)---有限样本理论 Vapnik的贡献(2)---线性算法 Vapnik的贡献(3)---泛化误差界 统计机器学习 Leo Breiman 统计学简史---陈希孺 面临的现实和统计学家的思考 统计机器学习 近期的研究课题 Efron, Valiant Schapire 集群学习 加性模型的解释---投票 权值的获得---空间 近期的研究课题 对margin的批评 关键:损失函数 近期的研究课题 变量稀疏:变量选择---特征选择 特征选择 vs. 变量稀疏 LASSO 总 结 谢 谢 模式识别:减少计算量。特征选择 统计学:获得信息(相对预测),变量稀疏--变量选择 数据挖掘:描述数据(相对预测)。 当前任务:辨别自然模型的真实变量,过滤多余变量带来的噪音。 特征选择 Wrapper 变量稀疏 LASSO Filter LARS 对特定算法,优化中逐步删除不必要的变量。 通过逐步加入变量,完成优化。 LASSO(Least Absolute Shrinkage and Selection Operator) [Tibshirini,1996]: ?=[?1,…,?1]p,考虑?T?j?c,将其作为线性约束,共2p个。使用最小二乘计算初始的?,使用一个迭代算法,直到???j?c。 求解L1约束下平方误差损失最小的问题。 所有与?j?0对应的变量,就是被选择的变量集合。 (1)在集群意义下,研究弱模型的作用。 (2)消除冗余特征,发现问题需要且仅需要的变量。 两者的区别仅在不同空间上,使用LASSO。 中国科学院自动化研究所 Machine Learning and Data Mining 2006 中国科学院自动化研究所 Machine Learning and Data Mining 2008 第11届中国机器学习会议 大连,2008,8 机器学习来源于人工智能。 著作:机器学习(Machine Learning) Tom Michell 描述:如果一个系统能够通过执行某种过程而改进它的性能,这就是学习。 Herbert Simon Vapnik在“机器学习”术语之前加了“统计”二字,变为“统计机器学习”。 由此 从Rosenblatt的感知机到人工神经网络划入了这个领域。 Duda Hart的模式分类(统计模式识别)划入这个领域。 统计学的算法文化划入了这个领域。 Quilan的决策树方法和Valiant的PAC划入这个领域。 “统计” 早期,不喜欢。M.Minsky的批评,感知机停滞。 Duda Hart的统计模式识别,统计机器学习与其一致。人工神经网络反对AI。 统计机器学习使用的AI成果: Valiant的PAC:这是当前统计机器学习的基础之一。 Quilan的决策树:这是统计机器学习最重要的算法之一。 统计机器学习已成为人工智能最主要的研究课题。 Vapnik在“泛化”旗帜下,批判了这种排他性。 统计机器学习的理论框架 有限样本理论 统计建模的两种文化 近期的研究课题 1973年,他们出版了至今有重要影响“Pattern classification and scene analysis”,2001年,在此基础上,删除了情境分析的内容,大量增加了统计建模的内容。 尽管2001年版的内容大大丰富了,无论在理论研究结果,方法的罗列,还是参考文献的收集,都可以称为一本研究者必备的手册,但是,其理论框架的识别也比1973版困难。 Duda Hart的模式分类理论框架=统计机器学习理论框架 Bayes决策论 后验概率:P(?j?x)=P(?i)p(xj??i)。样本数趋于无穷大。 判决规则:对所有?j,最大P(?j?x)就是x的类别。 目标:风险R(?i?x)=??(?i??j)P(?i?x)最小。?是损失函数。 函数g(x)=w0+?wtx,如果?wtx-w0,x属于?1。 问题变为在确定的损失函数(准

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档