- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
临床大数据的挖掘、分析及应用
第五讲 随机森林分析方法
随机森林方法与原理
案例:应用随机森林算法预测样本分类并提取结局的重要
风险因素
分析结果的图表展示及论文的撰写
1
1 随机森林方法与原理
随机森林
RANDOMFOREST
n 1 n n 3 n 4 n m
2
N
2
1 随机森林方法与原理
Method
采用有放回抽样法构建不同的样本集进行训
练,对每个样本集构建决策树,从而形成随机
森林,根据所有树的投票数确定样本的类别。
3
1 随机森林方法与原理
案例:随机森林处理的多分类问题
拉曼检测
吸毒 HIV 正常
实际观测 吸毒 44 0 1
HIV 1 35 0
正常 0 1 52
4
1 随机森林方法与原理
很多数据分析的结果证实随机森
林的分类效能很高,该方法可以解决
所有二分类和多分类的问题。
5
1 随机森林方法与原理
当前,随着生物医学技术的发展及大数据时代的到来,高通
量多指标的高维数据越来越多。比如高通量的Microarray技术,
可以同时检测成千上万个基因的表达谱,已经成为功能基因组研
究中的重要工具。
对于这些数据,一方面希望能够构建模型,获得样本最大的分
类准确率,另一方面如何能够从海量的指标中提取出重要的特征
属性也是较为重要的问题。随机森林(Random forest)方法能
够比较有效的解决这些问题。
6
1 随机森林方法与原理
随机森林算法是基于递归分类树的有监督学习方法。对原始训练集采用bootstrap法有放回的随
机抽取新的样本集并由此构建分类树,每次未被抽到的样本组成了袋外数据OOB (out-of-bag ),
作为测试集。在树的每个分叉结点对特征空间作一次穷尽搜索,提取一个特征基因 ,使得在结点t
的划分最大程度降低类别杂质度。采用Gini差
文档评论(0)