生物技术 大规模并行测序 测序数据的质量评估.pdfVIP

  • 26
  • 0
  • 约1.74万字
  • 约 15页
  • 2023-09-13 发布于内蒙古
  • 举报

生物技术 大规模并行测序 测序数据的质量评估.pdf

目 次 1 范围 1 2 规范性引用文件 1 3 术语和定义 1 4 原始数据 5 4.1 总体要求 5 4.2 原始数据文件 5 4.3 原始数据的质量评估 6 4.3.1 总体要求 6 4.3.2 基本统计步骤 6 4.3.3 质量指标 6 4.4 原始数据预处理 6 5 序列校正与比对 7 5.1 总体要求 7 5.2 校正与比对文件格式 7 5.3 测序校正和比对的质量控制 7 5.3.1 基本校正数据 8 5.3.1.1 总体要求 8 5.3.1.2 单端测序片段比对数据 8 5.3.1.3 配对端测序片段比对数据 8 5.3.1.4 子片段的长度比对 8 5.3.2 质量指标 8 5.3.3 校正和比对质量评估方法 9 5.4 校正后处理 9 6 变异识别 9 6.1 总体要求 9 6.2 变异识别的数据文件 9 6.3 变异识别的质量指标 9 6.4 假阳性变异处理 10 6.5 序列注释 10 7 验证 10 7.1 总体要求 10 7.2 质量指标的验证 10 8 文件 11 附 录 A (资料性)特定 MPS 平台示例的质量指标 12 附 录 B (资料性)按应用划分的覆盖范围和读取建议 13 附 录 C (资料性) 序列比对和校正软件 14 生物技术 大规模并行测序 第2 部分:测序数据的质量评估 1 范围 本文件明确了对质量评估和大规模并行测序数据的整体要求和建议。涵盖了原始数据生成过程、排 序对齐和变量调用。本文件还提供了MPS数据验证和文档化的一般指南。 本文件不适用于与重新组装相关的任何过程。 2 规范性引用文件 本文件没有规范性引用文件。 3 术语和定义 下列术语和定义适用于本文件。 3.1 适配器序列 adapter sequence 适配器 adapter 一种已知序列的人工寡核苷酸,可加到核酸片段的3 或5 端。 注:它提供引物位点以及其他必要的序列来对插入目的片段进行测序。 3.2 算法 algorithm 完全确定的有限指令序列,通过它可以从输入变量的值计算出输出变量的值。 [来源:IEC 60050-351:2013,351-42-27,修改——注释已删除] 3.3 碱基识别 base calling 将原始电信号转化为核苷酸序列的大规模并行测序计算过程。 注:碱基识别的应用和算法的性能由测序片段读取的准确性和一致性来确定。 3.4 生物信息学流程 bioinformatics pipeline 连接在一起的不同程序、脚本或软件片段,其中,原始数据或一个程序的输出是下一个数据处理步 骤的输入。 示例:碱基质量剪切程序的输出可作为从头组装程序的输入。 3.5 捕获效率 capture efficiency 覆盖了 目标区域的所有测序序列或比对序列的百分比。 3.6 覆盖 coverage 覆盖深度 coverage depth 在一次测序中,一个指定碱基位置被读取的次数。 1 注:覆盖特定位置的序列数目。 3.7 覆盖广度 coverage breadth 在测序运行中,组装的基因组或 目标基因组在部分。 3.8 簇密度 cluster density 每个单元(tile)中, 簇的数量 注1:簇密度适用于有扩增步骤的MPS (3.30)平台。 注2:各个测序簇来决定测序密度,在某些测序平台上,每个测序簇起源于单个分子。 2 注3:簇密度通常以千/mm 表示。 3.9 循环共识序列 circular consensus sequencing 测序模式,插入尺寸在滚动循环放大型反应中多次测序,导致高精度。 注:在这种模式下,可以使用来自同

文档评论(0)

1亿VIP精品文档

相关文档