- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
外显子组测序在医学研究中的应用
一、外显子组测序技术简介
外显子组序列仅占全基因组序列的1%左右,与人类85%致病基因突变相关。与全基因组测序相比,外显子组测序不仅费用较低,而且测序覆盖度更深,数据准确性更高。
外显子测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后,再进行高通量测序的基因组分析方法。
二、外显子组测序流程
三、外显子组测序信息分析流程
主要信息分析内容归类
3.1、数据过滤与评估
3.2、整体质量评估
3.3、SNP检测与注释
3.4、InDel检测与注释
3.5、高级分析
3.1、数据过滤与评估
过滤接头。对含接头的reads去除接头序列。
一条reads上N(未能确定出具体的碱基类型)的比例大于5%,则过滤掉该reads。
过滤低质量reads,过滤掉Q3085% reads。
3.1.1、原始数据过滤
3.1.2、测序数据统计与评估
测序质量值分布图
碱基含量分布图
3.2、整体测序质量评估
3.2.1、测序深度统计
注:横坐标代表测序深度,纵坐标代表目标区域上对应深度的碱基数占总碱基数的百分比。目标区域的单碱基分布近似服从泊松分布。
3.2.2、外显子捕获统计
Target region stat
X1
X2
X3
X4
Length_of_target_region(Mb)1
118.70
118.70
118.70
118.70
Reads_mapping_ref(single reads)2
182.95
168.48
97.76
96.16
Mapping_datasize(Mb)3
13721
12636
9776
9616
Effective_sequences_on_target(Mb)5
92.05
90.86
66.84
64.37
Average_sequencing_depth_on_target7
47.31
46.75
43.05
41.45
Mismatch_rate_in_target_region8
Mismatch_rate_in_all_effective_sequence9
Base_covered_on_target(Mb)10
6904
6815
6684
6437
Coverage_of_target_region11
Fraction_of_target_covered_with_at_least_20x12
Fraction_of_target_covered_with_at_least_10x13
Fraction_of_target_covered_with_at_least_4x14
当比对到参考基因组目标区域的数据量在60%之上,认为外显子捕获效率合格。
3.2.3、染色体覆盖深度分布
注:横坐标为染色体长度,纵坐标为覆盖深度取对数。
3.3、 SNP检测及注释
3.3.1、 SNP检测
SNP的检测主要使用GATK软件工具包实现。
BMK ID
SNP Number
Transition Number
Transversion Number
Ti/Tv Ratio
Heterozygosity Number
Homozygosity Number
X1
985254
669172
316082
2.11
207400
777854
X2
842516
573399
269117
2.13
167179
675337
X3
263326
178220
85106
2.09
26436
236890
X4
289954
196145
93809
2.09
30446
259508
Total
1556901
Type
R01
R02
R03
R04
INTERGENIC
449352
380794
113110
125682
INTRAGENIC
3425
2896
892
975
INTRON
401739
343966
111218
121865
UPSTREAM
24452
21350
6105
6521
DOWNSTREAM
95551
83565
27732
30377
UTR_3_PRIME
395
407
112
124
UTR_5_PRIME
2165
1891
776
850
SPLICE_SITE_ACCEPTOR
31
36
14
14
SPLICE_SITE_DONOR
61
54
19
21
CDS
NON_SYNONYMOUS_CODING
1971
1899
882
925
NON_SYNONYMOUS_START
2
1
0
0
START_GAINED
378
346
93
100
START_LOST
8
6
3
2
STOP_GAINED
26
24
10
8
STO
文档评论(0)