- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
选择性集成 (Selective Ensemble) 周志华 /people/zhouzh/ Email: zhouzh@ 南京大学计算机软件新技术国家重点实验室 泛化:generalization 泛化能力越强,处理新数据的能力越好 泛化能力是机器学习关注的基本问题之一 提高泛化能力是永远的追求 泛化能力 集成学习(Ensemble Learning)是一种机器学习范式,它使用多个(通常是同质的)学习器来解决同一个问题 集成学习 问题 … ... … ... 问题 集成学习中使用的多个学习器称为个体学习器 当个体学习器均为决策树时,称为“决策树集成” 当个体学习器均为神经网络时,称为“神经网络集成” …… …… 由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威 T.G. Dietterich 称为当前机器学习四大研究方向之首[T.G. Dietterich, AIMag97] 集成学习的重要性 问题:对20维超立方体空间中的区域分类 左图中纵轴为错误率 从上到下的四条线分别表示: 平均神经网络错误率 最好神经网络错误率 两种神经网络集成的错误率 令人惊奇的是,集成的错误率比最好的个体还低 [L.K. Hansen P. Salamon, TPAMI90] 集成学习的用处 集成学习技术已经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用 只要能用到机器学习的地方,就能用到集成学习 期望结果 个体1 (精度33.3%) 个体2 (精度33.3%) 个体3 (精度33.3%) 集成(精度33.3%) 投票 个体必须有差异 期望结果 个体1 (精度33.3%) 个体2 (精度33.3%) 个体3 (精度33.3%) 集成 (精度0%) 投票 个体精度不能太低 个体学习器越精确、差异越大,集成越好 [A. Krogh J. Vedelsby, NIPS94] 如何构建好的集成 既然多个个体的集成比单个个体更好,那么是不是个体越多越好? 更多的个体意味着: 在预测时需要更大的计算开销,因为要计算更多的个体预测 更大的存储开销,因为有更多的个体需要保存 个体的增加将使得个体间的差异越来越难以获得 个体越多越好吗? Many Could be Better Than All:在有一组个体学习器可用时,从中选择一部分进行集成,可能比用所有个体学习器进行集成更好 [Z.-H. Zhou et al., AIJ02] 从一组个体学习器中排除出去的个体(k)应满足: 分类 选择性集成 回归 遗憾的是,上述公式在解决实际问题时难以直接使用 … ... w1 w2 … ... wn 利用遗传算法进化 … ... 遗传算法选择 随机生成若干权向量,权向量的每个分量对应了一个个体学习器,这些权向量被遗传算法进化,得到一个最优权向量,它表示了各个体学习器在构成集成时的“重要性”,据此进行个体的选择 假设 w2 1/n 分类:有排除的投票 回归:有排除的平均 为了证明选择性集成学习的可操作性,我们提出了GASEN算法 w11 w12 … ... w1n w21 w22 … ... w2n wm1 wm2 … ... wmn 随机生成一个权向量群体 … ... … ... … ... … ... [Z.-H. Zhou et al., AIJ02] GASEN(基于遗传算法的选择性集成学习算法) 与著名的集成学习算法Bagging和Boosting相比,GASEN 获得了更高的(或相当的) 精度,而且使用的个体学习器少得多 (回归:19% (3.71/20);分类:36% (7.10/20.0)) [Z.-H. Zhou et al., AIJ02] 实验结果 给定学习目标和训练集规模, bias 度量了学习算法的平均估计结果与目标的接近程度 variance 度量了在同样规模的不同训练集上,学习算法的估计结果的扰动程度 以往研究表明,Bagging主要减小variance,而Boosting主要减小bias [E. Bauer R. Kohavi, MLJ99; L. Breiman, TechRep96] 我们采用的分解机制为 [R. Kohavi W.H. Wolpert, ICML96] Bias-Variance分解 在回归任务中,GASEN在减小bias和variance方面都优于Bagging和Boosting 在分类任务
您可能关注的文档
- 环境影响评估试题集锦.docx
- 江苏省连云港市2013年度中考生物试卷.docx
- 2011年度高考数学浙江省理科卷第22课赏析.ppt
- 2014年度国家自然科学基金项目申请、结题注意事项和时间安.ppt
- 2018上半年度CET考试考务培训会议.ppt
- Rootkit恶意软体之隐藏和侦测技术.ppt
- WorldBankOnlineResources世界银行在线资源4个数据库.ppt
- 班级八年级1班指导教师周婷.ppt
- 并能解决一些实际问题;通过公式推导,培养学生分.ppt
- 村、居2个新字。2.了解诗意,体会诗中描绘情景.ppt
- 大模型及AI应用专题:Gemini 3.0 Nano密集发布,从谷歌AI体系看应用叙事.docx
- 宏观深度报告:超万亿美元贸易顺差流向哪里.pdf
- 肝原代细胞库的建立及肝脏自组装类器官疾病模型构建.pdf
- 全球供应链促进报告及指数矩阵.pdf
- 抖音有你真好我的上班搭子IP营销.pdf
- 2025财年加蓬国家意见调查报告2025.12.docx
- 2025年中国网文IP短剧开发价值报告.pptx
- 香樟公馆卢浮魅影国庆节晚宴活动方案.pptx
- 某县委政法委书记在全县政法综治工作会议上的发言提纲汇编(5篇).docx
- 某县民族团结进步创建经验材料:以“五个一”创建模式为抓手+争创全国民族团结进步示范县.docx
原创力文档


文档评论(0)