全外显子测序分析流程.pdfVIP

  • 0
  • 0
  • 约3.83千字
  • 约 5页
  • 2026-03-06 发布于河南
  • 举报

全外显子测序分析流程

全外显子测序(WES)是以捕获基因组中所有编码区为核心,通过

高通量测序获得大量变异信息的一种常用手段。它既比全基因组测序

成本低、数据量更易管理,又能聚焦于蛋白质编码区域的变异,帮助

揭示疾病相关的遗传因素。下面从样本准备到结果解读,按照实际工

作中常见的流程和要点,系统介绍全外显子测序分析的核心环节、关

键指标和常见问题,力求用通俗、可操作的语言把整个过程讲清楚。

1、样本准备与建库

在进入测序前,首先要把原始材料转化为可用于高通量测序的文库。

核心步骤包括DNA提取、定量与质量评估,以及建库与靶区捕获。

DNA提取与质量评估:选取血液、唾液等样本,确保DNA完整性

高、污染少。常用指标包括A260/280在18-20区间、DNA片段完整性

(DIN或agarose凝胶显示的高分子量带)以及总量。

酶切、片段化与接头连接:将DNA切成适合测序的平台要求的片

段(通常几百碱基对),并连接测序接头,同时尽量保持片段均一性,

减少偏差。

靶区捕获:采用商业化的外显子捕获方案,将编码区区域进行富集

(如人类基因组的编码区集合)。这一阶段决定了真正参与测序的片

段比例。

文库质量检验:对捕获后的文库进行定量与片段分析,确认文库浓

度、片段长度分布等是否符合测序平台的要求。

建库环节的关键点在于尽量减少污染、均匀覆盖并控制文库复杂度。

捕获效率和文库质量直接影响后续数据质量与变异检测的灵敏度。

2、测序与初步数据产出

文库经扩增并转入测序平台,产生原始序列数据。

测序格式与产出:以双端读长为常见(例如2×150bp),产出的基

础数据通常为FASTQ格式,包含每个读取的序列与质量信息。

初步数据指标:关注总读取数、读取长度、Q30质量比例、测序错

配率等。优质数据通常Q30占比较高,整批数据的GC偏倚要尽量小。

初步的测序深度通常以平均覆盖度来衡量,WES常见目标是在每个位

点达到100x左右的平均覆盖,但不同捕获方案和诊断需求会有差异。

3、质控与数据清洗

获得原始数据后进入质控阶段,目的是去除错误、降低污染对分析

的影响。

质控工具与要点:使用FastQC等工具评估序列质量、接头污染、

低质量尾端和重复序列。若发现明显问题,需要进行剪切、去接头、

低质量阅读过滤等处理。

数据清洗的具体内容:去除接头序列、去除低质量读段、过滤过短

读段、去重等。清洗后的数据更利于后续比对和变异检测,减少假阳

性。

质控指标的目标值:比对比例(mappingrate)通常应高于95%,

覆盖均值达到计划值,重复率应尽量低于20%(具体取决于建库与捕

获效率)。

4、序列比对与对齐

清洗后的reads需要对齐到参考基因组,通常是人类参考基因组

GRCh38或对应版本。

比对工具与原则:常用的比对工具包括BWA等,按染色体坐标排

序并生成BAM格式的对齐文件。比对过程需要尽量减少错配和错位。

处理流程细节:比对后对BAM进行排序、索引、去重

(MarkDuplicates)以及必要的基质质量重校正(BQSR,BaseQuality

ScoreRecalibration)。这些步骤能提升变异检测的准确性,尤其是在

低频变异和小效应变异的识别上。

结果指标:比对成功率、平均覆盖深度、覆盖范围、重复率、以及

在目标区域的覆盖均匀性等。目标是确保大多数编码区达到预设的覆

盖阈值,以便对变异做出可靠判断。

5、变异检测与初步筛选

变异检测是核心环节,分为小变异(单核苷酸变异SNP、小插入缺

失INDEL)检测,以及对大结构变异的初步评估(后者在WES中相对

受限)。

变异检测方法:常用的工具组合如GATK的HaplotypeCaller等,

能够在全基因组或靶区范围内识别SNP与INDEL。若采取多样本联合

分析,可以提高对低频变异的检出能力。

输出与格式:得到的通常是VCF文件,包含变异位点、等位基因、

深度、质量分数等信息。对结果进行初步的质量筛选,如过滤掉低深

度、低等位基因频率等可能的假阳性。

文档评论(0)

1亿VIP精品文档

相关文档