- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因芯片数据标准化局部加权回归法权函数剖析
基因芯片数据标准化局部加权回归法权函数剖析
摘 要:局部加权回归方法(Lowess方法)作为一种较常见的基因芯片数据标准化方法涉及到众多的参数和权函数.对于权函数的选择一直以来都是采用三次权函数.因此本文从误差为重尾型的t分布出发,模拟不同自由度的基因芯片数据,然后选择不同的权函数对这些数据进行Lowess方法标准化,并利用残差平方和、标准化后的M和A值的相关系数及MA图作为评判标准,最终得到相关指标量与权函数的变化关系.
关 键 词:
统计模拟; 局部加权回归(Lowess); 权函数; MA图; 残差平方和(SSE)
中图分类号:O213.9 文献标志码:A 文章编号:1008-9497(2010)01-022-08
1 介 绍
微阵列数据标准化是微阵列数据分析中的基本问题之一.目前对微阵列数据的标准化方法有许多,如基于非参数的global标准化方法[1],包括均值归一化法,内部参考基因法等,此外,还有基于局部加权回归的标准化方法,改进的局部加权回归的标准化方法[2]等.
对基因芯片数据标准化方法的探索一直没有停止过,就目前的应用趋势来讲,局部加权方法(下称Lowess方法)受到了许多研究人员的关注.该方法涉及到一些参数的选择和权函数的确定,在过去的研究中,有学者对参数的选择给出了参考意见[3],但在权函数的选择上一直采用W(x)=(1-|x|??3)??3的形式,因为有研究表明使用该权函数比较符合常规情况下误差服从正态分布的假设[4].但是,当这样的假设和实际情况不相符合时,也就意味着三次权函数不一定就具有比较好的标准化结果.
因此,本文在引入基因数据模拟的前提下,对带有重尾噪音的模拟数据进行不同权函数下的Lowess方法标准化,探讨权函数的选择影响.
2 统计模拟及权函数选取
2.1 统计模拟
双色(R和G)基因芯片的信号强度在测定过程中会受到许多因素的干扰,因此实验所得的信号值往往由两部分组成:真实的信号强度和噪声影响值.为了便于本文的研究,即考察在噪声影响分布非正态而为重尾型时局部加权回归权函数的选择,首先要对待分析的微阵列数据进行模拟.
根据国内外学者的研究结果,本文对基因芯片信号真实值模拟引用已有的方法[5]:
假设有N个基因:基因1,基因2,…,基因N.
给定自由度后,根据(1)-(4)的真实信号模拟过程和误差效应模拟过程,重复操作z次,取平均数,可得数据的模拟结果如图1所示.
从上述模拟结果来看,当t分布的自由度较小时,重尾效应明显,红色信号模拟值R??k和绿色信号G??k值的一致性显得较差,从图像上来看,表达有差异的基因比想象要多.从图1(a)―(c)与(d)的比较看来,采用自由度较大的t分布和采用正态分布的数据没有表现出特别明显的区别,这从数理统计知识上可以得到论证.需要注意的是较小自由度下t分布所得的模拟结果和正态分布所得的模拟结果两者明显的区别在于前者比较容易产生信号值较大?┑牡?.
鉴于上述模拟结果的分析,文中将分别对自由度较小和自由度较大的t分布下产生的模拟数据利用Lowess方法进行标准化,并且考虑相应的权函数影响效应.
2.2 Lowess方法引入
2.2.1 基本思想
目前比较常见的一种非参数标准化方法是利用局部加权回归的Lowess方法.该方法的基本思想是[4]:
观察图2和3可知,当(n,m)型权函数中的n值增大时,在距离为0附近的权重变化得比较缓慢;此外对于相同的n值,m值增大的直接影响是整个图像显示出的下降趋势加剧,有些类似于正态分布中方差的影响.
由于权函数的选择将直接影响Lowess的最终结果,因此考虑对它们的不同选择来察看最终的标准化结果.
3 结果与讨论
由于真正基因芯片数据的最终标准化结果的好坏只能在标准化后再对数据进行后期的表达差异分析和聚类分析等过程,然后从这一系列的结果中可看出是否符合生物意义,或是发现一些先前研究者没有发现的现实意义,而这些结果的发现不但与前期的数据处理有关,而且也和后期的分析方法有关,因此无法给出一个绝对的标准,用以评判基因芯片数据标准化结果的优劣.所以,本文只能参考性地提出3条评判标准:
(1) Lowess过程后预测值和真实值之间的残差平方和达到一个比较低的水平;
(2) MA图[8],一般地,数据的M值会停留在0附近;
(3) M值和A之间的相关系数,正常情况下,它们之间的相关性比较弱[9];
3.1 自由度df=5
3.1.1 (n,n)型与正态型权函数结果比较
根据数据模拟部分的相关过程,给定自由度为
文档评论(0)