5决策树与随机森林探究.pptVIP

下载本文档

5
0
约6.34千字
约 62页
2017-07-11 发布于湖北
举报
版权申诉

5决策树与随机森林探究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* */60 决策树的生成过程 */60 决策树的生成过程 */60 决策树的生成过程 */60 决策树的生成过程 */60 决策树的过拟合决策树对训练属于有很好的分类能力，但对未知的测试数据未必有好的分类能力，泛化能力弱，即可能发生过拟合现象。剪枝随机森林 */60 Bootstraping Bootstraping的名称来自成语“pull up by your own bootstraps”，意思是依靠你自己的资源，称为自助法，它是一种有放回的抽样方法。注：Bootstrap本义是指高靴子口后面的悬挂物、小环、带子，是穿靴子时用手向上拉的工具。“pull up by your own bootstraps”即“通过拉靴子让自己上升”，意思是“不可能发生的事情”。后来意思发生了转变，隐喻“不需要外界帮助，仅依靠自身力量让自己变得更好”。 */60 Bagging的策略 bootstrap aggregation 从样本集中重采样(有重复的)选出n个样本在所有属性上，对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等) 重复以上两步m次，即获得了m个分类器将数据放在这m个分类器上，最后根据这m个分类器的投票结果，决定数据属于哪一类 */60 Another description of Bagging */60 Bagging */60 Bagging的结果 */60 随机森林随机森林在bagging基础上做了修改。从样本集中用Bootstrap采样选出n个样本；从所有属性中随机选择k个属性，选择最佳分割属性作为节点建立CART决策树；重复以上两步m次，即建立了m棵CART决策树这m个CART形成随机森林，通过投票表决结果，决定数据属于哪一类 */60 应用实例：Kinect Real-Time Human Pose Recognition in Parts from Single Depth Images, Jamie Shotton etc,2001, */60 随机森林/Bagging和决策树的关系当然可以使用决策树作为基本分类器但也可以使用SVM、Logistic回归等其他分类器，习惯上，这些分类器组成的“总分类器”，仍然叫做随机森林。举例 */60 回归问题离散点是样本集合，描述了臭氧(横轴)和温度(纵轴)的关系试拟合二者的变化曲线 */60 使用Bagging 算法过程做100次bootstrap，每次得到的数据Di，Di的长度为N 对于每一个Di，使用局部回归(LOESS)拟合一条曲线(图中灰色线是其中的10条曲线) 将这些曲线取平均，即得到红色的最终拟合曲线显然，红色的曲线更加稳定，并且没有过拟合明显减弱记原始数据为D，长度为N(即图中有N个离散点) */60 附：局部加权线性回归 LWR：Locally Weighted linear Regression LOESS : LOcal regrESSion */60 附：线性回归与局部加权回归黑色是样本点红色是线性回归曲线绿色是局部加权回归曲线 */60 投票机制简单投票机制一票否决(一致表决) 少数服从多数有效多数(加权) 阈值表决贝叶斯投票机制 */60 贝叶斯投票机制简单投票法假设每个分类器都是平等的。在实际生活中，我们听取一个人的意见，会考虑这个人过去的意见是否有用，从而加大或者减少权值。贝叶斯投票机制基于每个基本分类器在过去的分类表现设定一个权值，然后按照这个权值进行投票。 */60 投票机制举例假定有N个用户可以为X个电影投票(假定投票者不能给同一电影重复投票)，投票有1、2、3、4、5星共5档。如何根据用户投票，对电影排序？本质仍然是分类问题：对于某个电影，有N个决策树，每个决策树对该电影有1个分类(1、2、3、4、5类)，求这个电影应该属于哪一类(可以是小数：分类问题变成了回归问题) */60 一种可能的方案 WR：加权得分(weighted rating) R：该电影的用户投票的平均得分(Rating) C：所有电影的平均得分 v：该电影的投票人数(votes) m：排名前250名的电影的最低投票数根据总投票人数，250可能有所调整按照v=0和m=0分别分析 */60 评价指标以下近考虑二分类问题，即将实例分成正类(positive)或负类(negative)。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类(True positive),如果实例是负类被预测成正类，称之为假正类(False positive)。相应地，如果实例是负类被预测成负类，称之为真负类(True negative