R语言ESeq 包介绍.docxVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
R语言ESeq 包介绍

R语言DESeq包介绍分析RNA序列数据的一个主要任务是探测基因的差异表达,DESeq包提供了测试差异表达的方法,应用负二项分布和收缩的分布方程估计。包的安装输入如下命令,DESeq和相关的包就可以自动下载和安装。source(/biocLite.R)biocLite(DESeq)相关的包会自动下载安装,安装的包如下:中间会有个选择需要更新相关的包,选择更新全部,更新的包有:另外还要安装一个数据包,供下面介绍包中的方法时使用,包名为pasilla.输入数据和准备2.1 计数表数据表的第i行第j列元素表示第j个样本的第i个基因有多少个reads。本文使用的数据来自于pasilla数据包,函数system.file告诉我们数据文件保存的路径。 datafile = system.file( extdata/pasilla_gene_counts.tsv, package=pasilla ) datafile[1] D:/Program Files/R/R-2.15.3/library/pasilla/extdata/pasilla_gene_counts.tsv在R中读取这个文件,使用read.table函数。 pasillaCountTable = read.table( datafile, header=TRUE, s=1 ) head( pasillaCountTable )2.2 元数据没有元数据的数据是没有用的,元数据可以分为三组,分别是样本(行),特征(列)和整个实验的信息。首先需要样本的描述信息,data.frame的列表示各种信息,行表示7个样本。 pasillaDesign = data.frame(+ s = colnames( pasillaCountTable ),+ condition = c( untreated, untreated, untreated,+ untreated, treated, treated, treated ),+ libType = c( single-end, single-end, paired-end,+ paired-end, single-end, paired-end, paired-end ) ) pasillaDesign这边简单地使用R代码进行设定,通常情况是从扩展表中读取这些数据。为了分析这些样本,我们需要解释single-end和paired-end的方法,这边首先简单的分析paired-end样本。 pairedSamples = pasillaDesign$libType == paired-end countTable = pasillaCountTable[ , pairedSamples ] condition = pasillaDesign$condition[ pairedSamples ]现在,我们有下面的数据输入 head(countTable) condition对于自己的数据,可以简单的创建因子。 #not run condition = factor( c( untreated, untreated, treated, treated ) )我们现在举例CountDataSet,DESeq包的核心数据结构 library( DESeq ) cds = newCountDataSet( countTable, condition )2.3 规范化函数estimateSizeFactors估计统计数据的大小因子 cds = estimateSizeFactors( cds ) sizeFactors( cds )如果统计数据的每列除以这列的大小因子,这样统计值就变成同一规模,使它们具有可比性。函数counts可以做这个计算。 head( counts( cds, normalized=TRUE ) )方差估计DESeq推断依靠估计典型的数据间的方差和平均关系,或者等效的离差和均值。离差可以理解为生物变异系数的平方。估计离差可以使用以下命令。 cds = estimateDispersions( cds )函数estimateDispersions做了三步,首先估计每条基因的离差,然后,通过估计匹配一条曲线,最后,每个基因分配一个离差,从每条基因估计值和匹配值选一个。为了让用户知道中间过程,fitInfo对象被储存下来。 str( fitInfo(cds) )函数plotDispEsts可以画出每条基因的估计值和平均正常统计值的关系。 plotDispEsts( cds )图1 经验的(黑点)和匹配的(红线)离差值与平均正常统计值的关系图在任何情况下,可以被子序列测试使用的离差值被存储在cds的特征数据集里。 head( fData(c

文档评论(0)

ipad0d + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档