宏基因组数据处理和加工要求-最新国标.pdfVIP

  • 97
  • 0
  • 约7.54千字
  • 约 9页
  • 2024-06-20 发布于山西
  • 举报

宏基因组数据处理和加工要求-最新国标.pdf

宏基因组数据处理和加工要求

1范围

本文件规定了宏基因组数据处理和发布的要求,以及功能分析前的数据处理的质量评价/评估,包括

对宏基因组数据处理的类别定义、处理流程、数据格式、和质量评估提出了要求。

本文件适用于各级别科研机构、临床研究机构和第三方服务机构、科研服务企业以及使用同行评估

的项目确认或认可数据发布和信息共享中数据管理的能力。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

ISO20691:2022《生物技术-生命科学中对下游数据处理和集成工作流的数据格式化和描述的需求》

ISO/TS24420:2023《生物技术-大规模并行DNA测序-鸟枪法宏基因组数据处理通用要求》

3术语和定义

下列术语和定义适用于本文件。

3.1

宏基因组Metagenomics

对特定环境的整个微生物群落进行的研究,此研究直接提取环境样品中所有微生物的DNA而不进

行分离和培养,并分析遗传组成,物种分类,系统发育,基因功能和代谢网络。

3.2

元数据Metadata

关于数据的数据。

3.3

生物项目bioproject

关于一个测序项目的所有数据的信息。

3.4

生物样本biosample

关于一个测序样本的所有信息。

3.5

生物实验bioExperiment

关于一次测序实验的所有信息。

3.6

组装Assembly

在测序后从短序列形成完整基因的过程。

3.7

数据格式Dataformat

根据预设规格进行的数据排列(通常用于计算机处理)。

3.8

碱基质量Qualityscore

碱基识别出错概率的整数映射。

3.9

Q50

测序数据中识别质量值大于50的碱基比例。

3.10

原始数据Rawdata

测序仪产生的初级测序数据。

[来源:ISO20397-2,3.21]

3.11

衍生数据deriveddata:

利用原始数据进行分析后得到的数据。

3.12

丰度abundance

一种微生物在环境中的总微生物群落中的相对比例,通常表现为百分比。

4宏基因组数据描述要求

4.1宏基因组元数据描述要求

4.1.1元数据表示对宏基因组测序的特征、内容、相关联系人、以及所产生的数据的方法、质量控制等

进行描述的内容。通常包括宏基因组测序的项目、样本、测序实验的描述信息。

4.1.2生物项目描述信息(附录A.1)包括项目的名称、范围和内容、并记录项目的联系人等贡献者信

息。项目名称应当准确描述项目的主要特征。

4.1.3生物样本描述信息(附录A.2)包括样本的采集时间、地点、样本的内容及相关联系人信息。应

当建立标准化的环境采集特征,推荐使用由GSCGenomicStandardsConsortium发布的国际通用的环境

包用于环境特征EnvironmentOntology的描述。

4.1.4生物实验描述信息(附录A.3)应当包括样本处理的描述、建库测序方法和参数等详细信息。能

够通过控制词表进行规范化描述的内容应当尽量建立词表来进行描述,如测序平台、建库方法等信息的

控制表。

4.2宏基因组测序原始数据描述要求

4.2.1宏基因组测序原始数据是指直接利用测序仪器所产生的文件,包括序列字符及对应的碱基质量,

用于进行数据的后续分析。

4.2.2原始数据通常根据测序平台的不同,可以以多种标准化的方式进行存储,例如Binary

Alignment/Map[BAM],CompressionReducedAlignment/Map[CRAM]或者Fastq等文件。序列文件存储

的格式应当在序列描述中进行说明。

4.3宏基因组衍生数据描述要求

4.3.1衍生数据包括利用原始数据进行拼接、物种注释、功能注释等分析,并形成的结果。

4.3.2衍生数据应当记录分析用的软件名称、版本号及参数。

4.3.3拼接后数据,应当明确标识contigs,scaffolds,或者染色体chromosomes等拼接后的状态。

4.3.4物种注释应当记录比对上的物种名称及丰度,比对的物种名称应当使用准确的分类名称(门、纲、

目、科、属、种或未分类)

4.3.5功能注释应当记录注释用的参考数据

文档评论(0)

1亿VIP精品文档

相关文档