网站大量收购独家精品文档,联系QQ:2885784924

2025年RNASeq测序数据分析服务流程试运行.doc

2025年RNASeq测序数据分析服务流程试运行.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

北京大學生科院/CLS生物信息平台

RNA-Seq测序数据分析服务流程

(试运行

.3

平台联络人:李程(

文档撰写:张超

TableofContents

1.测序质量评估(3

1.1测序数据過滤(3

1.2质量值分布(3

1.3GC含量分布(4

2.参照序列比對(4

3.基因体現水平(6

3.1基因体現水平定量(6

3.2基因体現水平分步(6

3.3生物學反复有关性分析(6

3.4样本间层次聚类及PCA分析(7

4.差异基因分析(7

4.1基因体現原则化(7

4.2差异基因列表(8

4.3差异基因可视化(8

4.4差异基因聚类(9

5.差异体現基因功能分析(10

5.1GO富集分析(10

5.2信号通路富集分析(10

5.3癌基因功能注释(11

6.基因构造差异分析(11

6.1可变剪切分析(11

7.SNP分析(12

7.1SNP检测(12

7.2SNP筛选(12

7.3GO/KEGG富集(12

1.测序质量评估

通過测序的数据進行進行质控,保证数据质量适合下游分析。這裏我們使用fastqc和RNA-SeQC来對数据進行质量评估。

1.1测序数据過滤

测序得到的原始下机数据往往有許多問題,不能直接使用,一般會通過如下過滤,尽量保证测序数据的质量。

a.清除带测序接頭的测序序列(reads;

b.清除低质量的reads

1.2质量值分布

按照既有的测序技术(illumina平台單碱基的錯误率应控制在1%如下,即质量值在20以上。

横坐標為reads的碱基位置,纵坐標為單碱基质量值

质量值与錯误率的关系:Q

=-10log10(e;其中Qphred為测序碱基质量值,e為测

phred

序錯误率。

1.3GC含量分布

對于RNA测序,鉴于序列通過超声随机打断,因此理论上每個测序循环上的C、G及A、T含量应分布相等,并且CG-content對于每個物种应大体相似。

横坐標為reads的碱基位置,纵坐標為多种碱基的不一样比例

2.参照序列比對

對于通過质量控制的数据,可以進行後续分析。首先需要将cleanreads比對到参照基因组上。由于测序時reads是随机的,只有這些reads的碱基信息和质量信息,没有其在基因组上的位置信息,比對這一步就是給所有reads一种在基因组上位置的信息。

在RNA测序中,其实测的是cDNA的序列,由于内含子的存在,因此會较常出現一条read跨内含子的状况,tophat2可以很好的处理這种状况,因此我們选用tophat2来做比對。

比對率间接反应了测序的质量和建库的质量,若比對率低,很也許建库時混入了其他物种的序列,导致無法比對到研究的物种参照基因组上。

reads比對到基因上的位置记录:

SampleIntragenic

Rate

Exonic

Rate

Intronic

Rate

Intergenic

Rate

Split

Reads

Expression

Profiling

Efficiency

Transcripts

Detected

Genes

Detected

1BJ0.8850.7380.1470.1149,910,0100.73832,79615,434

(1Sample:样本名

(2IntragenicRate:比對到基因内的reads比例

(3ExonicRate:比對到外显子的reads比例

(4IntronicRate:比對到内含子的reads比例

(5IntergenicRate:比對到基因间区的reads比例

(6SplitReads:比對到两外显子交接处的reads数

(7ExpressionProfilingEfficiency:比對到外显子上的reads占总体的比例

(8TranscriptsDetected:比對上reads数不小于5的转录本数

(9GenesDetected:比對上reads数不小于5的基因数

3.基因体現水平

3.1基因体現水平定量

在RNA-seq分析中,我們可以通過定位到基因组区域或基因外显子区的reads的计数来估计基因的体現水平。Reads计数除了与基因的真实体現水平成正比外,還与基因的長度和测序深度成正有关。為了使不一样基因、不一样试验间估计的基因体現水平具有可比性,人們引入了RPKM的概念,RPKM(ReadsPerKilobasesperMillionreads是每百萬reads中来自某一基因每仟碱基長度的reads数目。RPKM同步考虑了测序深度和基因長度對reads计数的影响,是目前最為常用的基因体現水平估算措施(Mortazavietal.,。

Gene_

文档评论(0)

130****8663 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档