六种差异基因筛选方法及筛选效果的比较.pdfVIP

六种差异基因筛选方法及筛选效果的比较.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2007年中国卫生统计学术大会论文集西安 六种差异基因筛选方法及筛选效果的比较 赵发林刘艳李康 哈尔滨医科大学卫生统计学教研室 对基因表达数据的分析,.其重要任务之一是筛选差异表达基因,即通过比较正 常和疾病状态下基因转录及表达的差异,研究疾病的发生机理、进行疾病的早期诊 断及治疗。差异基因筛选方法有多种,各种差异基因筛选方法处理由基因芯片获得 的微阵列数据的过程基本相同,即先计算表达每一个基因的组间差异的统计量,然 后按统计量的绝对值大小进行排序,可以认为排位越靠前的基因其组间差异为真实 差异基因的概率较大;也可以将计算所得统计量以O为界分为两部分,然后按其绝 对值大小分别排序,大于0的部分排序靠前的基因与小于0的部分排序靠前的基因 可分别认为是上调/下调或下调/上调基因。排序后的基因可按照经验或统计学原理确 定切点,将排位靠前的部分基因识别为差异表达基因。国内外一些学者曾对多种差 异表达基因筛选方法进行过比较,但通常针对的是特定的几种方法,比较时所用的 数据及条件也不尽相同。本文在简要介绍6种差异基因筛选方法的基础上,采用计 算机模拟实验的方法,针对不同类型的数据对其进行比较和研究。与其他研究相比, 本文主要进行了以下几点改进:_是在相同条件下对六种方法进行比较:二是通过 选择不依赖样本分布的ROC曲线下面积AUC值对变量的组间差异进行设置,增强 了不同类型数据筛选结果间的可比性;三是以真实基因芯片实验数据为基础产生模 拟实验的噪声数据,使模拟结果更接近真实情况。 1.原理与方法 1.1FC:法 FC法(FoldChange)常被译为倍数法或倍数差异法,是早期基因芯片实验常采 用的筛选差异表达基因的方法。其算法如下: 粥=MD—M丑 (1) 式中MD和M口分别为对不同分组每例观测的基因表达水平取对数后的均值。由公式 可知,FC法仅比较不同组间变量平均差别的大小,其缺点显而易见,即没有考虑到 数据的离散程度,理论上存在一定的不足。 2007年中国卫生统计学术大会论文集西安 1.2r检验 芒检验指传统的两组均数比较方法,理论上要求两组数据均来自正态总体且两组 数据的总体方差相等。由于基因芯片实验所得数据通常无法完全满足这一假设,所 以用芒检验进行差异表达基因筛选所得的结果不够理想,实际中常用的是Welch近 似芒检验,该方法针对组间方差不齐的情况对自由度进行了校正。 1.3SAM法 of SAM法(Significanceanalysis 据的一种方法。其基本原理是在传统芒检验公式的分母中加上一个较小的正数Jo, 使构建的统计量在分子(均数差值)较小的情况下不容易得到较大的芒值。当基因 表达水平较低时常出现组间均数差值较小的情况,通过上述调整可以在很大程度上 限制表达水平较低的基因被识别为差异表达基因,并且使得统计量的分布较少依赖 与基因表达水平。其具体算法如下: ㈣:圣盟二豆盟 “ s(f)+so (2) 公式中‰的取值需保证统计量d(f)的变异系数最小,d(f)的变异系数可以通过 1.4SAMROC法 该方法可以认为是按照另一种原则计算SAM法中的修正参数Jo。其基本思想是: 在一定范围内变化检验显著水准口和修正参数so的取值,并在每一个取值情况下筛 选差异表达基因,估计每一组差异表达基因对应的假阳性率和假阴性率,计算相应 的衡量指标‘‘C距离”,在一定范围内取C距离最小的条件组合,选取此时对应的Jo为 最终确定的校正参数值。C距离具体含义如下:在坐标系内以假阴性率和假阳性率描 点,计算该点与原点的距离,该距离即为‘‘c距离”,其示意图如图1,它显示了两种 条件中条件l有较小的C距离,能够同时保证具有较小的假阴性率和假阳性率。这 一方法与SAM法有类似的特点,并且筛选出的一组差异表达基因同时具有较小的假 阳性率和假阴性率,其思想类似于RoC工作曲线。

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档