- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
北京大學生科院/CLS生物信息平台
RNA-Seq测序数据分析服务流程
(试运行
.3
平台联络人:李程(
文档撰写:张超
TableofContents
1.测序质量评估(3
1.1测序数据過滤(3
1.2质量值分布(3
1.3GC含量分布(4
2.参照序列比對(4
3.基因体現水平(6
3.1基因体現水平定量(6
3.2基因体現水平分步(6
3.3生物學反复有关性分析(6
3.4样本间层次聚类及PCA分析(7
4.差异基因分析(7
4.1基因体現原则化(7
4.2差异基因列表(8
4.3差异基因可视化(8
4.4差异基因聚类(9
5.差异体現基因功能分析(10
5.1GO富集分析(10
5.2信号通路富集分析(10
5.3癌基因功能注释(11
6.基因构造差异分析(11
6.1可变剪切分析(11
7.SNP分析(12
7.1SNP检测(12
7.2SNP筛选(12
7.3GO/KEGG富集(12
1.测序质量评估
通過测序的数据進行進行质控,保证数据质量适合下游分析。這裏我們使用fastqc和RNA-SeQC来對数据進行质量评估。
1.1测序数据過滤
测序得到的原始下机数据往往有許多問題,不能直接使用,一般會通過如下過滤,尽量保证测序数据的质量。
a.清除带测序接頭的测序序列(reads;
b.清除低质量的reads
1.2质量值分布
按照既有的测序技术(illumina平台單碱基的錯误率应控制在1%如下,即质量值在20以上。
横坐標為reads的碱基位置,纵坐標為單碱基质量值
质量值与錯误率的关系:Q
=-10log10(e;其中Qphred為测序碱基质量值,e為测
phred
序錯误率。
1.3GC含量分布
對于RNA测序,鉴于序列通過超声随机打断,因此理论上每個测序循环上的C、G及A、T含量应分布相等,并且CG-content對于每個物种应大体相似。
横坐標為reads的碱基位置,纵坐標為多种碱基的不一样比例
2.参照序列比對
對于通過质量控制的数据,可以進行後续分析。首先需要将cleanreads比對到参照基因组上。由于测序時reads是随机的,只有這些reads的碱基信息和质量信息,没有其在基因组上的位置信息,比對這一步就是給所有reads一种在基因组上位置的信息。
在RNA测序中,其实测的是cDNA的序列,由于内含子的存在,因此會较常出現一条read跨内含子的状况,tophat2可以很好的处理這种状况,因此我們选用tophat2来做比對。
比對率间接反应了测序的质量和建库的质量,若比對率低,很也許建库時混入了其他物种的序列,导致無法比對到研究的物种参照基因组上。
reads比對到基因上的位置记录:
SampleIntragenic
Rate
Exonic
Rate
Intronic
Rate
Intergenic
Rate
Split
Reads
Expression
Profiling
Efficiency
Transcripts
Detected
Genes
Detected
1BJ0.8850.7380.1470.1149,910,0100.73832,79615,434
(1Sample:样本名
(2IntragenicRate:比對到基因内的reads比例
(3ExonicRate:比對到外显子的reads比例
(4IntronicRate:比對到内含子的reads比例
(5IntergenicRate:比對到基因间区的reads比例
(6SplitReads:比對到两外显子交接处的reads数
(7ExpressionProfilingEfficiency:比對到外显子上的reads占总体的比例
(8TranscriptsDetected:比對上reads数不小于5的转录本数
(9GenesDetected:比對上reads数不小于5的基因数
3.基因体現水平
3.1基因体現水平定量
在RNA-seq分析中,我們可以通過定位到基因组区域或基因外显子区的reads的计数来估计基因的体現水平。Reads计数除了与基因的真实体現水平成正比外,還与基因的長度和测序深度成正有关。為了使不一样基因、不一样试验间估计的基因体現水平具有可比性,人們引入了RPKM的概念,RPKM(ReadsPerKilobasesperMillionreads是每百萬reads中来自某一基因每仟碱基長度的reads数目。RPKM同步考虑了测序深度和基因長度對reads计数的影响,是目前最為常用的基因体現水平估算措施(Mortazavietal.,。
Gene_
您可能关注的文档
- 2025年房屋拆除施工组织方案.doc
- 2025年无人机数据传输系统手册.doc
- 2025年二手车电子商务平台商业计划书.doc
- 2025年药房上墙管理制度.doc
- 2025年施工现场防高空坠落应急演练活动方案.doc
- 2025年九年级物理欧姆定律教学设计.doc
- 2025年用水定额及实用标准.doc
- 2025年海绵城市监理细则.doc
- 电子行业2024年投资策略报告:半导体周期反转在即,终端创新、AI引领新一轮成长.pdf
- 电力设备与海上风电行业2024年度策略:需求驱动,共赴上行周期2.0.pdf
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
最近下载
- 22J403-1 楼梯 栏杆 栏板一 (1).docx VIP
- 越野汽车强制锁止式差速器的设计.docx
- 2025年二建《市政公用工程管理与实务》案例300问.pdf VIP
- 华为鸿蒙介绍:于鸿蒙之中万物静默生长,开源生态繁花似锦竞相绽放(29页).pptx
- 优质课一等奖高中语文必修四《永遇乐·京口北固亭怀古》 (2).doc VIP
- 中式面点制作工艺章节测试答案.pdf VIP
- 2024年信息系统项目管理师(综合知识、案例分析、论文)合卷软件资格考试(高级)试题与参考答案.pdf VIP
- 体育概论(第二版)全套教学课件汇总.pptx
- 虚拟数字人全景深度解析.docx
- 《立体车库的PLC设计》.doc
文档评论(0)