随机森林方法在基因表达数据分析中的应用与研究进展.pdf

随机森林方法在基因表达数据分析中的应用与研究进展.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
·437· 随机森林方法在基因表达数据分析中的应用及研究进展奉 武晓岩 李 康△ 哈尔滨医科大学卫生统计学教研室(150001) 随着人类基因组测序工作的完成,基因组研究的 l。基本原理 主要焦点已经转向功能研究,即需要知道这些基因是 随机森林由Leo 如何按照特定的组织和时间进行表达、表达量有多少, 其核心是获得基因功能的表达谱。用基因芯片(cD-有放回地重复随机抽取k个样本生成新的训练样本集 NA微阵列)进行表达谱检测,一次杂交可以产生成千 合,然后根据自助样本集生成七个分类树组成随机森 上万个相关基因表达的定量结果。由于基因芯片技术 林,新数据的分类结果按分类树投票多少形成的分数 的发展和应用,人们面对的是海量的生物信息数据,并 而定。其实质是对决策树算法的一种改进,将多个决 且这种数据的增长速度极其迅速,且许多数据库是公 策树合并在一起,每棵树的建立依赖于一个独立抽取 开的,如何从这种包含序列结构和功能信息的数据中 的样品,森林中的每棵树具有相同的分布,分类误差取 确定与某一特定生命现象(如生长、发育,肿瘤发生 决于每一棵树的分类能力和它们之间的相关性。特征 等)相关的基因及其功能已成为后基因组时代关注的 选择采用随机的方法去分裂每一个节点,然后比较不 焦点。大规模基因功能表达谱的分析导致了新的统计 同情况下产生的误差。能够检测到的内在估计误差、 学方法与技术的问题,我国目前使用基因芯片进行科 分类能力和相关性决定选择特征的数目。单棵树的分 学研究的医学工作者愈来愈多,并且获得大量宝贵的 类能力可能很小,但在随机产生大量的决策树后,一个 实验数据,但由于缺少有效的统计分析方法,难以挖掘 测试样品可以通过每一棵树的分类结果经统计后选择 其中的重要信息。 最可能的分类。 对基因表达数据的分析,其重要任务是筛选差异 2.随机森林算法 表达基因及对基因或样品进行分类,通过比较正常和 随机森林中的每一棵分类树为二叉树,其生成遵 疾病状态下基因转录及其表达的差异,研究疾病的发 循自顶向下的递归分裂原则,即从根节点开始依次对 生机理、疾病的早期诊断及治疗。而对基因或样品进 训练集进行划分;在二叉树中,根节点包含全部训练数 行分类,可以将功能相似、具有共调控的基因或不同的 据,按照节点不纯度最小原则,分裂为左节点和右节 组织分型聚在一起.帮助我们根据已知基因发现和识 点,它们分别包含训练数据的一个子集,按照同样的规 别有意义的未知基因。对基因表达谱数据分析的主要 则节点继续分裂,直到满足分支停止规则而停止生长。 困难是相对于给定的样品数目基因的数量巨大,用传 若节点,l上的分类数据全部来自于同一类别,则此节 统的统计方法对“差异基因”进行鉴别会产生大量的 点的不纯度,(n)=0。不纯度度量方法是Gini准则, 假阳性结果,建立分类模型则由于其中含有大量对分 即假设P(∞,)是节点,l上属于∞,类样本个数占训练 类不起作用的基因使其效能降低。最近,应用组合分 样本总数的频率,则Girfi准则表示为: 类器的方法得到了人们重视,即将多个单一分类器的 预测模型进行组合,产生一个新的分类器,然后利用它 i#j 1 对未知数据进行分类。许多研究表明,组合分类器比 具体实现过程如下: 单一分类器的分类效果好,随机森林(randomforest) 是一种利用多个分类树对数据进行判别与分类的方 随机抽取k个新

文档评论(0)

youyang99 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档