机器学习的困惑及历史的启示
Machine Learning and Data Mining 2009 中国科学院自动化研究所 中国科学院自动化研究所 Machine Learning and Data Mining 2009 机器学习的困惑与历史的启示 王珏 第九届机器学习 及其应用研讨会 2011年11月,清华大学 自 然 模 型 [采样] 样本集 模型 [算法] [交叉验证] 假设iid 统计机器学习的麻烦 ????? [设计实验] 问题:模型是自然模型吗? 统计机器学习 如果数据不充分,在大变量集合下,如何设计实验,获得新数据。 统计机器学习的困难:实验设计存在组合问题。iid成为与自然模型无关的假设! 特殊函数的逼近 社会的需求 生物、网络、金融、经济和安全等众多领域,大变量集合的海量数据不断涌出,社会迫切需要分析与处理这些数据的有效理论、方法与技术。 寻找分析与处理大变量集合海量数据的新理念、理论、方法与技术成为当前迫切的任务。 历史的故事 线性感知机 基于最小二乘的Rosenblatt的感知机(1956),其本质是多变量空间上的平均(回归)。 1902年,James的神经元相互连接 1943年,McCulloch和Pitts的神经元工作方式 1949年,Hebb的学习律。 贡献是:多变量回归的计算方法(神经网络)。 基函数: L = ?1D + ?2I + ?3G + ?4S 设计算法,确定?,获得模型 疑问是:只能解决线性问题,不能满足实际的需要。埋下被批评的口实。 20世纪70年代面临的选择 统计优化(平均): 线性感知机 统计模式识别 复杂信息系统(结构): 专家系统 句法模式识别 选择 非线性问题 计算效率 专家系统合理 复杂问题求解 实现智能系统的理想 Duda and Hart[73] 从Bayes判别(分类),引入损失函数,变为正则化问题 If [D=0]?[G=A] then[L=0] If [I=0]?[G=A] then[L=0] If [D=1]?[I=1]?[G=A] then [L=1] AI 1969年,M.Minsky发表颠覆性的报告, “Perceptron”。表象是以XOR问题向以平均为基础的感知机发难,本质是试图以结构方法代替平均。全书使用拓扑作为工具。 1956年,以复杂信息处理为契机,提出AI。其动机有二:其一,发展处理符号的方法,其二,处理非线性问题。 过分强调独立性,使得描述任何一个问题,需要穷举出所有可能。80年代,耗资巨大的CYC“失败”了。 需要统计方法成为共识。 20世纪80年代面临的选择 概率图模型(Bayes学派): Markov随机场 Bayes网 人工神经网络(频率学派): BP 统计机器学习 选择 结构学习的困难 先验的结构 先验概率分布 推断是NPC 字符识别,网络数据建模 误差界指导算法设计 算法基于线性感知机 无需先验知识,无推断 考虑泛化为核心 Gibbs[1902], Wright[1935] Clifford[1971] Pearl[1988,89] 统计机器学习 1991年,Vapnik借用在AI中的PAC,给出基于iid的误差界,基于PAC的统计开始成为主流 1986年, Remulhart发表PDP报告,包含非线性BP算法,解决XOR,逼近非线性函数。学术价值不大,人们开始重新尝试“平均”方法。 从ANN到SML,发展得力于对字符识别的成功 神经网络?基于PAC的机器学习?基于统计学的机器学习 贡献: (1)基于iid的误差界指导算法设计,(2)算法设计返回感知机,线性算法,寻找线性空间(核映射)。 基于PAC理论,误差界以1-?概率成立。这个参数在泛化意义下的解释:理想,?应该趋于0,但是,误差界将趋于无穷,成为平凡界。 新世纪开始,统计学家加入SML,完全放弃PAC(Hastie)。 维数灾难 高维空间上的统计理论,多重积分是麻烦,补充“合适”样本是麻烦。“同分布”只能停留在假设上,无法实施。 在高维空间(成百上千)建模,最大的危险就是空间大的程度使得再多的样本,在这个空间上也是稀疏的。 由于困难具有本质性,平均遇到大麻烦! 概率图模型 将平均放在局部,避免了维数灾问题,同时保证了泛化和模型的可解释性,关键是结构,将局部的平均构造起来。 基于平均的研究已经过去20余年,2009年,Koller出版巨著(近1200页),概率图模型。 结构(全局) + 平均(局部) 将问题考虑为求解Bayes问题 一、表示 二、推断 三、学习 概率
您可能关注的文档
- 最新人教版七年级上册地理课件第一节《地球与地球仪》PPT课件.ppt
- 最新人教版九年级数学上册_23-1关于原点对称点坐标课件.ppt
- 最新人教版九年级数学上册23.2.3.关于原点对称点坐标.ppt
- 最强原创:07细胞的物质输入与输出.ppt
- 最新人教版六年级下册数学总复习《数的读法与写法》PPt.ppt
- 最新人教版六年级数学总复习 常见量(七)计量单位及进率.ppt
- 最新人教版七年级地理上册课件降水的变化及分布.ppt
- 最新北师大版八年级上第三章 位置及坐标提高训练经典题库(120题).docx
- 最新人教版八年级思品《无形财产》PPT.ppt
- 最新北师大版七年级数学下册3.2用关系式表示变量之间关系.pptx
最近下载
- (高清版)DB31∕T 1487-2024 国际医疗服务规范.docx VIP
- 精益管理措施在医院手术室医用耗材管理中的应用.pdf VIP
- 2026及未来5年中国商务男装市场运行态势及战略咨询报告.docx
- 泸州市高2023级(2026届)高三(一诊)数学试题(含标准答案).pdf
- 新城地产商开目标成本主要科目价格测算标准-定稿.pptx VIP
- 12月1日艾滋病宣传日活动方案模板(集锦5篇).docx VIP
- 2024年湖南铁道职业技术学院单招计算机测试模拟题库必考题.docx VIP
- 遗产分割起诉状.docx VIP
- 2021年重庆市中考物理真题(a卷).pdf VIP
- 2025年度民主生活会对照检查材料8篇五个带头合集.docx VIP
原创力文档

文档评论(0)