- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
随机森林一种重要的肿瘤特征基因选择法.pdf
生物物理学报 第二十五卷 第一期 二 九年二月
ACTA BIOPHYSICA SINICA Vol.25 No.1 Feb. 2009
随机森林:一种重要的肿瘤特征基因选择法
李建更, 高志坤
(北京工业大学电子信息与控制工程学院,北京 100 124)
: ,随机森林
摘要 特征选择技术已经被广泛地应用于生物信息学科 (random forests ,RF)是其中一种重要
的特征选择方法。利用RF 对胃癌、结肠癌和肺癌等5 组基因表达谱数据进行特征基因选择,将选择结果与支持
向量机(support vector machine ,SVM)结合对原数据集分类,并对特征基因选择及分类结果进行初步的分析。
同时使用微阵列显著性分析(significant analysis of microarray ,SAM)和ReliefF 法与RF 比较,结果显示随机森
林选择的特征基因包含更 分类信息,分类准确率更高。结合该方法自身具有的分类方面的诸 优势,随机森林
可以作为一种可靠的基因表达谱数据分析手段被广泛使用。
:
关键词 肿瘤;特征选择;随机森林;SAM ;ReliefF
:
中图分类号 TP391
0 引 言 集进行特征基因的选择,然后将所选结果结合支持
向量机 support vector machine ,SVM 对原数据
( )
在肿瘤的预测及治疗过程中,通常需要对病变 集分类比较,最后分析实验结果。
部位的组织样本进行DNA 提取,得到每个样本对
应各基因的表达谱数据。这些数据通常具有小样 1 方法及原理
本、超高维的特点,即临床样本少而包含的基因有
成千上万,其中包含有用信息的基因只占很小一部 1.1 随机森林法
分,大量冗余基因和噪声给研究人员的工作造成很 随机森林是一种操作方便、结果可靠的分类
大困难。此外,利用原始数据构建分类器对新样本 器,在不增加原样本集样本的情况下通过拔靴法
进行预测,不但会花费大量时间,还会降低分类效 (bootstrap)选择样本子集构建一组分量分类器,
果。因此,特征选择在表达谱数据分析过程中是不 然后利用投票 (voting)机制综合分量分类器的结
可或缺的,是研究人员挑选有价值的基因进行有针 果得到最终分类结果。在构建分量分类器时,未被
对性和高效的研究的重要手段。根据特征选择过程 选中的样本组成袋外(out-of-bag,OOB)数据集,
与分类器设计的关系,特征选择算法一般可以分为 用袋外数据进行测试得到袋外误差 (out-of-bag
过滤法(filter)、绕封法(wrapper)和嵌入法 error,OOB Err)。随机森林有很多优点,如:不
[1] 其中, , 、适用于变量数目远大于样本数
(embedded) 。 filter 法独立于分类器 需要对数据预处理
wrapper 法和Embedded 法与分类器结合使用。本 目的问题、对多类问题处理方便快捷、不会过拟合
文采用的随机森林(random forests ,RF)属于 (overfitting)、分类结果稳定等。随机森林的分类
文档评论(0)