- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与R软件实战演练
中级课程
主讲人:程豪
第十一章 R软件与随机森林
内容概要
•随机森林理论学习:
•发展脉络
•理论概述
•特征选择
•特点
• R软件实现
发展脉络
单棵决策 组合算法,如 随机森林
树 bagging,adab
oost
• 精度 • 提高 • 进一步提
低 精度 高精度
4
随机森林
森林:大量决策树的集合
随机:在建树过程中引入随机性,以此
提高组合预测精度
合起来,即为 “随机森林”,重点在于
“随机”
具体来说,对训练样本随机化,对变量
随机化
5
引例
单个资产风险(+ )
投资组合风险 资产之间相关性(- )
个人能力(+ )
团队做项目 队员之间的相关
性/相似性(- )
结果取决于单个个体、个体之间相关性
6
影响精度因素
类比理解:
单棵树强度(+ )
随机森林精度
树之间相关性(- )
外推误差:
7
随机森林,是用随机的斱式建立一个森林,森林里边
有很多的决策树组成,随机森林的每一棵决策树之间
是没有关联的。在得到森林之后,当有一个新的输入
样本进入的时候,就让森林中的每一棵决策树分别进
行判断,看看这个样本应该属于哪一类(对于分类算
法),然后看看哪一类被选择最多,就预测这个样本
为那一类。它是一种统计学习理论,利用bootstrap重
抽样斱法从原始样本中抽取多个样本,对每个
bootstrap样本进行决策树建模,然后组合多棵决策树
的预测,通过投票得出最终预测结果。
随机森林
外推误差:
随机森林:在保持单颗树精度丌变下,通过
引入随机性,降低树不树之间的相关性,
来提高预测精度
9
随机森林的构建过程
自助样本集1 树分类器1
…
…
全
部 自助样 树分 随机 投票
训 本集i 类器i 森林 分类
练
样 … …
本
自助样本集j 树分类器j
随机森林原理
• 随机森林分类(RFC )是由很多决策树分类模型
原创力文档


文档评论(0)