- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
“泛化误差界”研究的演变 PAC界(Valiant[1984]) VC维界(Blumer[1989]) 最大边缘(Shawe-Taylor[1998]) 好好的 最大边缘(Shawe-Taylor[1998]) M0,边缘不能等于零。这意味着,样本集合必须是可划分的。 边缘最大,误差界最小,泛化能力最强。泛化能力可以使用样本集合的边缘刻画。 这个不等式依赖于边缘M。 贡献:给出了有几何直观的界描述,从而为算法设计奠定基础。 好好的 研究趋势 算法的理论研究基本已经完成,根据特定需求的研究可能是必要的 目前主要集中在下述两个问题上: 泛化不等式需要样本集满足独立同分布,这个条件太严厉,可以放宽这个条件? 如何根据领域需求选择核函数,有基本原则吗? 好好的 集成机器学习的来源 神经科学:Hebb神经细胞工作方式 数学方法:非线性问题的分段化(类似) 计算技术:Widrow的Madaline模型 统计理论:PAC的弱可学习理论 好好的 Ensemble(集成) 1954年,Hebb使用这个单词来说明视觉神经细胞的信息加工方式 假设信息加工是由神经集合体来完成 好好的 Madaline模型 Widrow的Madaline模型 在数学上,其本质是放弃感知机对样本空间划分的超平面需要满足连续且光滑的条件,代之分段的超平面 好好的 Schapire的理论 定理:如果一个概念是弱可学习的,充要条件是它是强可学习的 这个定理证明是构造性的,派生了弱分类器的概念,即,比随机猜想稍好的分类器 这个定理说明: 多个弱分类器可以集成为一个强分类器 1990年,Schapire证明了一个关键定理,由此,奠定了集成机器学习的理论基础 好好的 问题 集成机器学习的研究还存在着大量未解决的问题,关于泛化能力的估计(不等式)还存在问题 目前,这类机器学习的理论研究主要是观察与积累,大量的现象还不能解释 好好的 符号机器学习 最早的符号机器学习: Solomonoff的文法归纳方法(1959) 符号机器学习的主流: Samuel限制机器学习在结构化符号数据集合上(1967),约简算法。 Gold证明,这是不可能的实现的(1967)。 值得注意的动向: 文法归纳方法引起人们的重视。 Hebb路线:每个规则可以理解为一个弱分类器。 好好的 符号机器学习的数学基础 符号机器学习不同于统计机器学习,划分样本集合的等价关系是学习所得,符号机器学习是事先定义等价关系,学习只是在这个等价关系下约简样本集合 等价关系为: {(x, y) : a(x)=a(y), x, y?U} 好好的 符号机器学习的泛化问题 一个无矛盾规则越短,其覆盖对象越多,因此,符号机器学习的泛化是以信息长度描述的。这样,“最小”树或规则集合就是其目标函数 两个因素影响这个目标:其一,从实域到符号域的映射,其二,在符号域上的约简。对“最小”两者都是NP完全的。因此,近似算法是必然的 但是,只有在符号域上的约简是符号机器学习特有,因此,其泛化能力受到限制 不必与统计机器学习竞争,设立新目标 好好的 数据分析与传统机器学习区别 传统机器学习假设所有用户有相同的需求,其目标函数确定,而数据分析,不同用户有不同需求,目标函数随用户需求而定 传统机器学习是“黑箱”,模型无须可解释,但是,数据分析必须考虑对用户的可读性 传统机器学习将“例外”考虑为噪音,而数据分析则认为“例外”可能是更有意义的知识 好好的 符号机器学习的特点 由于这类机器学习主要处理符号,因此,如果获得一个长度较短的数据集合的描述,可以将其翻译为人可以阅读的文本。人通过阅读这个文本就可以了解数据集合的内容 这个目标与泛化能力无关,计算结果只是给定数据集合根据特定需求的一个可以被人阅读的缩影 这与传统数据分析的目标一致 好好的 符号数据分析(数据挖掘) 数据分析的主要工具是统计,“统计显现”是分析的主要指标 符号数据分析,尽管统计工具是必要的,但是,主要是通过将符号数据集合约简为简洁形式 好好的 符号机器学习的最新进展 Rough sets中的reduct理论是近几年符号机器学习最重要的研究结果之一 这个理论理论可以作为符号机器学习的数学基础 这个理论可以作为符号数据分析的基础(数据挖掘) 好好的 机器学习研究进展 第九届中国机器学习会议 上海 2004年10月 王 珏 中国科学院自动化研究所 jue.wang@mail.ia.ac.cn 周志华 南京大学计算机科学与技术系 zhouzh@nju.edu.cn 好好的 连接机器学习 符号机器学习 遗传机器学习 分析机器学习 机器学习研究的变迁 Carbonell(1989)展望 Dietterich(1997)展望 ? 统计机器学习 集成机器学习 符号机器学习 增强机器学习 流形机器学习
您可能关注的文档
- 最新精品中小学主题班会-如何预防煤气中毒PPT课件演示课件.ppt
- 最新部编人教版三年级上册语文第七单元习作我有一个想法演示课件.ppt
- 最新部编人教版三年级上册语文第七单元习作我有一个想法精美课件演示课件.ppt
- 最新部编人教版三年级语文上册第八单元习作那次玩得真高兴精美课件演示课件.ppt
- 最新部编人教版三年级语文上册第八单元语文园地精美课件演示课件.ppt
- 最新部编人教版小学三年级语文上册25掌声课件演示课件.ppt
- 最新部编人教版小学三年级语文上册第八单元习作那次玩得真高兴课件演示课件.ppt
- 最新部编人教版小学三年级语文上册第八单元口语交际请教课件演示课件.ppt
- 最新部编小学一年级语文上册总复习课件演示课件.ppt
- 最新银行反洗钱基础知识培训20170824演示课件.ppt
- 2024-2030年中国六水氯化镁片行业现状趋势及投资方向预测研究报告.docx
- 2024-2030年中国共享单车行业市场发展分析及发展前景与投资发展研究报告.docx
- 2024-2030年中国共享出行行业市场深度调研及投资策略与投资前景研究报告.docx
- 2024-2030年中国内嵌式灶具行业销售策略与营销前景预测报告.docx
- 2024-2030年中国内河拖船行业投资前景研究与经营管理风险分析研究报告.docx
- 2024-2030年中国军工装备行业发展分析及投资价值预测研究报告.docx
- 2024-2030年中国军工行业市场发展分析及发展前景与投资风险研究报告.docx
- 2024-2030年中国光伏运维行业风险评估与发展现状趋势前景预判报告.docx
- 2024-2030年中国光伏发电设备行业市场发展分析及投资前景与投资策略研究报告.docx
- 2024-2030年中国内燃机行业市场现状供需分析及投资评估规划分析研究报告.docx
文档评论(0)