RNA-seq数据差异表达分析方法的比较.docx

RNA-seq数据差异表达分析方法的比较.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
RNA-seq数据差异表达分析方法的比较

RNA-seq数据差异表达分析方法的比较 BMC Bioinformatics 2013, 14:91 doi:10.1186/1471-2105-14-91 A comparison of methods for differential expression analysis of RNA-seq data Charlotte Soneson ( HYPERLINK "mailto:Charlotte.Soneson@isb-sib.ch" Charlotte.Soneson@isb-sib.ch) Mauro Delorenzi ( HYPERLINK "mailto:Mauro.Delorenzi@unil.ch" Mauro.Delorenzi@unil.ch) 摘要说的背景是: “发现条件间差异表达的基因是理解表型变异的分子基础的一个有机部分。过去几十年中,DNA微阵列被广泛用于定量不同基因的mRNA丰度,更近期的 RNA-seq作为一个强有力的竞争者冒了出来。随着测序成本持续下降,可以想象使用RNA-seq做差异表达分析会迅速增加。为了探索可能性和解决这种 相对新型的数据提出的挑战,大量软件包特别为RNA-seq数据的差异表达分析开发出来了。” 而本文的结果是: “我们广泛比较了RNA-seq数据的差异表达分析的7种方法。所有方法都可以在R框架下免费获得,并以一个计数矩阵作为输入,计数即每个样品中映射到每个感兴趣的基因组特征上的reads数目。我们基于模拟数据和实际RNA-seq数据评价了这些方法。” 结论就是: “极小样本量仍是RNA-seq实验的普遍状况,对所有评价方法造成了困难;而任何在这样的条件下获得的结果都应该谨慎解释。对于更大的样本量,组合稳定方差变换和limma方法来进行差异表达分析会在很多不同的条件下表现良好,正如非参数的SAMseq方法一样。” 到2013年还说这种话,这些结论实在有点鸡肋啊~ 貌似为SAMseq摇旗呐喊来的……不过: 比较了11种软件包,这还是前所未有的:DESeq、edgeR、NBPSeq、TSPM、baySeq、EBSeq、NOISeq、SAMseq、 ShrinkSeq这9种可直接处理计数数据,另两种分别是voom(+limma)和vst(+limma),转换数据后用limma做差异表达分析。 正如很多文章已经提到的那些,RNA-seq比起微阵列有三大优点: 1、更大的动态范围 2、更低的背景噪音 3、能检测和定量先前未知的转录本及亚型 RNA-seq也有一些难题: 1、样本内不均匀性:基因组区域之间核苷酸组成的变异性导致沿基因组的read覆盖深度并不均匀; 2、同样表达水平下,长基因比短基因有更多的reads; 3、对于条件之间的表达差异,分别对各个基因进行差异表达分析,而忽略了样本内的偏倚(它们被假设对所有样本有类似的影响) 4、样本间不均匀性:测序深度或文库大小 5、少数高表达基因抑制了其他基因的read计数比例,可能导致低表达基因的差异表达假阳性 ?相应的解决办法是: 1、对上述4,5两点,估计样本特异的归一化因子,用于重新调整观测计数。这些归一化方法是为了使样本间的非差异表达基因的归一化计数是相似的。本研究中 使用的是DESeq包中的TMM方法。归一化因子和TMM两种方法的性能相似,也是仅有的两个在文献9的评价中对所有度量都提供了满意结果的方法。 2、对于2、4两点,基因长度和文库大小,有的软件采用了RPKM或相关的FPKM方法。只有非参数方法才适用于RPKM值。 致命的假设:大部分基因在样本间的表达是相等的。于是差异表达基因分成上调、下调及其之间的或多或少相等的三部分。 差异表达已经提出的模型中,Poisson分布和负二项分布最常见,还有β分布也被提出来。Poisson分布很适合技术变异的分析;而更高的生物学变异需要合并过离散的分布,如负二项分布。 RNA-seq数据的差异表达分析仍处于它的婴儿期,需要不断提出新的方法来。目前没有一致认可的表现最好的方法,只发表了很少的现有方法的广泛比较。文 献19中,依照区分真实差异/非差异表达基因的能力比较了四种参数方法。还有研究评价了测序深度的影响,并与样本量进行了比较,并发现后者的影响相当大。 本文中比较了为不同条件下RNA-seq数据的差异表达分析开发的11种方法。其中9种直接对计数数据进行建模,而另两个先对计数进行变换再应用微阵列数 据的差异表达分析的传统方法。研究限于R框架下实现的可应用于计数矩阵的可用方法。进一步我们聚焦于发现两条件之间的差异表达基因,因为这是最常见的应 用,虽然大多数方法也允许更复杂的试验设计。 对NB和Poisson分布模拟的数据和分别加了一些例外点的数据共四种数据集,研究了

文档评论(0)

zilaiye + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档