- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * PAC学习模型与Boosting PAC模型:Probably Approximately Correction 强可学习性:若存在一个多项式级的学习算法来识别一组概念,并且识别正确率很高 弱可学习性:而如果学习算法识别一组概念的正确率仅比随机猜测略好 等价性问题:Kearns和Valiant提出了弱学习算法与强学习算法的等价性问题,即是否可以将弱学习算法提升成强学习算法 因此,只需要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法。 Boosting算法:Schapire (1990)通过一个构造性方法对该问题作出了肯定的证明 AdaBoosting算法:Freund 集成学习 集成学习(Ensemble)是一种机器学习范式,它使用多个(通常是同质的)学习器来解决同一个问题。 问题 … ... … ... 问题 集成学习中使用的多个学习器称为个体学习器 当个体学习器均为决策树时,称为“决策树集成” 当个体学习器均为神经网络时,称为“神经网络集成” 当个体学习器均为聚类算法时,称为“聚类算法集成” …… …… 集成学习的重要性 由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威 T.G. Dietterich 称为当前机器学习四大研究方向之首。 [T.G. Dietterich, AIMag97] 问题:对20维超立方体空间中的区域分类 从上到下的四条线分别表示: 平均神经网络错误率 最好神经网络错误率 两种神经网络集成的错误率 令人惊奇的是,集成的错误率比最好的个体还低 [L.K. Hansen P. Salamon, TPAMI90] 如何构造好的集成 期望结果 个体1 (精度33.3%) 个体2 (精度33.3%) 个体3 (精度33.3%) 集成(精度33.3%) 投票 个体必须有差异 期望结果 个体1 (精度33.3%) 个体2 (精度33.3%) 个体3 (精度33.3%) 集成 (精度0%) 投票 个体精度不能太低 个体学习器越精确、差异越大,集成越好 [A. Krogh J. Vedelsby, NIPS94] 选择性集成 既然多个个体的集成比单个个体更好,那么是不是个体越多越好? 更多的个体意味着: 在预测时需要更大的计算开销,因为要计算更多的个体预测 更大的存储开销,因为有更多的个体需要保存 个体的增加将使得个体间的差异越来越难以获得 Many Could be Better Than All:在有一组个体学习器可用时,从中选择一部分进行集成,可能比用所有个体学习器进行集成更好。 [Z.-H. Zhou et al., AIJ02] Bagging算法 Breiman L. Bagging predicators. Machine Learning, 1996,24(2):123?140. 集成学习算法Bagging:在训练阶段,各学习器的训练集由原始训练集利用可重复取样(bootstrap sampling)技术获得,训练集的规模通常与原始训练集相当。这样,原始训练集中某些示例可能在新的训练集中出现多次,而另外一些示例则可能一次也不出现。 研究表明,Bagging 可以显著提高不稳定的基学习器的泛化能力。 Bagging 算法和其他大多数的集成学习算法都是为监督学习而设计的,对聚类这样的非监督学习来说,由于训练样本缺乏类别标记,聚类结果之间没有直接的对应关系,这将使得对个体学习器的结合难以直接进行。 选择性聚类集成 Breiman L. Bagging predicators. Machine Learning, 1996,24(2):123?140. 集成学习一般包含两个阶段: 个体生成阶段:通过不同的个体生成方式产生不同的个体标记向量。 个体学习器结合阶段:可以采用投票等方式将个体标记向量进行结合。 聚类分析集成学习: 个体生成阶段: (1)采用类似Bagging 算法中产生个体训练集的方式产生用于聚类的训 练集,即通过可重复取样技术从原向量集中产生若干训练集; (2)对每个训练集用FCM算法进行分析,获得聚类中心; (3)利用所得到的聚类中心对原向量集分别进行标记,获得标记向量。 选择性聚类集成 唐伟,周志华,基于Bagging的选择性聚类集成,软件学报,16(4): 496-502, 2005 注意:得到的标记向量由于缺乏先验的类别信息,并不能直接用于下一 阶段的结论合成。 例如:[1,2,2,1,1,3,3],[2,3,3,2,2,1,1] 为了对聚类结果进行结合,个体
您可能关注的文档
- 信息技术教育中的计算思维.pptx
- 信息技术课堂教学的组织与引导.ppt
- 信息技术与基础教育课程改革(北京).ppt
- 信息技术支持的教学环节优化.pptx
- 信息技术支持下的教学变革和创新---构建智慧课堂.pptx
- 信息科学与信息技术的发展.ppt
- 信息可视化概述.pptx
- 信息描述绪论.ppt
- 信息市场的运行机制.ppt
- 信用保障服务操作流程.pptx
- 2025年中国乙氧苯柳胺软膏市场调查研究报告.docx
- 2025年及未来5年电信设备项目市场数据调查、监测研究报告.docx
- 2025年中国产宝口服液市场调查研究报告.docx
- 2025年及未来5年远红外线热敷按摩仪之瑞颈灵项目市场数据分析可行性研究报告.docx
- 2025年中国2—氨基—4,6—二氯嘧啶市场调查研究报告.docx
- 2025年及未来5年双层风琴帘项目市场数据调查、监测研究报告.docx
- 2025年及未来5年多功能短路定位分析仪项目市场数据调查、监测研究报告.docx
- 2025年中国换芯型烟嘴市场调查研究报告.docx
- 2025年及未来5年印章防伪项目市场数据调查、监测研究报告.docx
- 2025年中国超小型冷冻修边机市场调查研究报告.docx
原创力文档


文档评论(0)