- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2007年中国卫生统计学术大会论文集西安
六种差异基因筛选方法及筛选效果的比较
赵发林刘艳李康
哈尔滨医科大学卫生统计学教研室
对基因表达数据的分析,.其重要任务之一是筛选差异表达基因,即通过比较正
常和疾病状态下基因转录及表达的差异,研究疾病的发生机理、进行疾病的早期诊
断及治疗。差异基因筛选方法有多种,各种差异基因筛选方法处理由基因芯片获得
的微阵列数据的过程基本相同,即先计算表达每一个基因的组间差异的统计量,然
后按统计量的绝对值大小进行排序,可以认为排位越靠前的基因其组间差异为真实
差异基因的概率较大;也可以将计算所得统计量以O为界分为两部分,然后按其绝
对值大小分别排序,大于0的部分排序靠前的基因与小于0的部分排序靠前的基因
可分别认为是上调/下调或下调/上调基因。排序后的基因可按照经验或统计学原理确
定切点,将排位靠前的部分基因识别为差异表达基因。国内外一些学者曾对多种差
异表达基因筛选方法进行过比较,但通常针对的是特定的几种方法,比较时所用的
数据及条件也不尽相同。本文在简要介绍6种差异基因筛选方法的基础上,采用计
算机模拟实验的方法,针对不同类型的数据对其进行比较和研究。与其他研究相比,
本文主要进行了以下几点改进:_是在相同条件下对六种方法进行比较:二是通过
选择不依赖样本分布的ROC曲线下面积AUC值对变量的组间差异进行设置,增强
了不同类型数据筛选结果间的可比性;三是以真实基因芯片实验数据为基础产生模
拟实验的噪声数据,使模拟结果更接近真实情况。
1.原理与方法
1.1FC:法
FC法(FoldChange)常被译为倍数法或倍数差异法,是早期基因芯片实验常采
用的筛选差异表达基因的方法。其算法如下:
粥=MD—M丑 (1)
式中MD和M口分别为对不同分组每例观测的基因表达水平取对数后的均值。由公式
可知,FC法仅比较不同组间变量平均差别的大小,其缺点显而易见,即没有考虑到
数据的离散程度,理论上存在一定的不足。
2007年中国卫生统计学术大会论文集西安
1.2r检验
芒检验指传统的两组均数比较方法,理论上要求两组数据均来自正态总体且两组
数据的总体方差相等。由于基因芯片实验所得数据通常无法完全满足这一假设,所
以用芒检验进行差异表达基因筛选所得的结果不够理想,实际中常用的是Welch近
似芒检验,该方法针对组间方差不齐的情况对自由度进行了校正。
1.3SAM法
of
SAM法(Significanceanalysis
据的一种方法。其基本原理是在传统芒检验公式的分母中加上一个较小的正数Jo,
使构建的统计量在分子(均数差值)较小的情况下不容易得到较大的芒值。当基因
表达水平较低时常出现组间均数差值较小的情况,通过上述调整可以在很大程度上
限制表达水平较低的基因被识别为差异表达基因,并且使得统计量的分布较少依赖
与基因表达水平。其具体算法如下:
㈣:圣盟二豆盟
“
s(f)+so (2)
公式中‰的取值需保证统计量d(f)的变异系数最小,d(f)的变异系数可以通过
1.4SAMROC法
该方法可以认为是按照另一种原则计算SAM法中的修正参数Jo。其基本思想是:
在一定范围内变化检验显著水准口和修正参数so的取值,并在每一个取值情况下筛
选差异表达基因,估计每一组差异表达基因对应的假阳性率和假阴性率,计算相应
的衡量指标‘‘C距离”,在一定范围内取C距离最小的条件组合,选取此时对应的Jo为
最终确定的校正参数值。C距离具体含义如下:在坐标系内以假阴性率和假阳性率描
点,计算该点与原点的距离,该距离即为‘‘c距离”,其示意图如图1,它显示了两种
条件中条件l有较小的C距离,能够同时保证具有较小的假阴性率和假阳性率。这
一方法与SAM法有类似的特点,并且筛选出的一组差异表达基因同时具有较小的假
阳性率和假阴性率,其思想类似于RoC工作曲线。
文档评论(0)