- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025版宏基因组数据处理和加工要求
1范围
本文件规定了宏基因组数据处理和加工的流程,宏基因组元数据描述要求、原始数据处理和加工要求、数据存储和发布通用要求。
本文件适用于微生物领域各级科技资源平台和宏基因组测序企业对宏基因组数据处理和分析的质量评价、评估。
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。
3.1
宏基因组metagenome
描述特定环境中所有微生物的遗传物质总和。
3.2
宏基因组测序metagenomicsequencing
对样本中所有微生物基因组进行测序的方法。
注:宏基因组测序能够在基因水平上描述整个群落的物种组成和功能。
3.3
标记基因测序markergenesequencing
为确定样品的微生物系统发育,使用靶向目标基因(例如用于细菌和古细菌鉴定的16SrRNA和用于真菌鉴定的内部转录间隔区ITS)特定区域的引物进行测序的方法。
3.4
原始数据rawdata
由测序仪通过碱基识别产生的未经过处理的数据。
3.5
衍生数据deriveddata
对原始数据进行拼接、注释等加工后形成的数据。
3.6
元数据metadata
定义和描述其他数据的数据。
注:在本文件中指对宏基因组测序数据的特征的描述。
[来源:GB/T18391.1—2009,3.2.16]3.7
注释annotation
利用生物信息学方法和工具,对基因组所有基因的生物学功能进行基因的识别、物种判定及功能预
测的一种方式。
3.8
数据处理dataprocessing
对原始数据进行必要的整理,形成可用于下一步分析的数据的过程。
注:包括数据的清洗、格式转换、质量控制等过程。
3.9
数据加工dataanalyzing
对经过处理后的原始数据进行分析,提取有用的信息和知识的过程。
注:包括数据的整合、审编、注释、标引等过程。
3.10
相对丰度relativeabundance
在测序结果中微生物的遗传物质在样本中占总测序数据量的相对比例。
注:通常表现为百分比。
3.11
重叠群contig
彼此可通过末端的重叠序列相互连接形成连续的DNA长片段的一组克隆。
3.12
骨架scaffolds
将拼接产生的重叠群组装成的长序列片段。
3.13
读长reads
高通量测序平台产生的短序列。
注:也称为一个读段。
3.14
组装assembly
利用短序列之间的重叠区域对片段进行拼接而形成较长的连续序列。
3.15
分箱binning
将序列组装得到的重叠群按物种分开归类的过程。
3.16
分类操作单元operationaltaxonomicunites;OTU
一组在物种分类地位上密切相关的个体或序列。
注:通常以97%的序列相似性阈值划分。
3.17
扩增序列变体ampliconsequencevariants;ASVs
对序列差异通过统计和去噪的方法进行计算,而获得的微生物群落中的代表性序列。
3.18
基因组完成图completegenome
经过高质量组装和验证的具有无间隙、高准确性并且结构完整的基因组序列。
注:对于原核生物,通常表现为单个环状染色体。
4宏基因组数据处理和加工流程通用要求
宏基因组测序数据处理和加工流程应符合图1的规定,并满足以下内容:
a)宏基因组数据是通过宏基因组技术对样本进行测序产生的基因组测序信息,包括标记基因测序数据,以及对全部基因测序所形成的数据;
b)宏基因组的样本、原始数据及分析后所形成的衍生数据应依据规范进行描述;
c)宏基因组测序数据的处理应包括对标记基因及宏基因组测序所形成的原始数据进行清洗、转换等预处理过程以及对数据进行质量控制的过程;
d)宏基因组测序数据的加工包括对经过处理的原始数据进行拼接、分箱等必要的加工,以及进行物种及功能注释,并形成衍生数据的过程;
e)宏基因组数据的原始数据及衍生数据,可与其关联的元数据一起,选择合适的数据仓储进行发布以及长期保存。
图1宏基因组测序数据处理和加工流程
5宏基因组元数据描述要求
5.1宏基因组样本元数据描述
5.1.1元数据表示对宏基因组测序关联的测序实验、测序样本及所属项目的描述、样本建库与测序的技术手段和仪器规格等进行描述的内容。通常包括宏基
您可能关注的文档
- 2025版科研用生物试剂分类及代码.pdf
- 2025版科研用生物试剂分类及代码.docx
- 2025版药品冷链物流追溯管理要求.pdf
- 2025版药品冷链物流追溯管理要求.docx
- 2025版宏基因组数据处理和加工要求.pdf
- 2025版野生植物种子库种子采集和信息管理要求.pdf
- 2025版野生植物种子库种子采集和信息管理要求.docx
- 起重机械安全使用培训(原创).pptx
- 2025秋苏科版(新教材)小学信息科技四年级上册期末测试卷附答案.docx
- 2025秋苏科版(新教材)小学信息科技五年级上册期末测试卷附答案(共3套).docx
- 浙江省温州市浙南名校联盟2025-2026学年高一上学期期中联考数学试题含解析.docx
- 26高考数学提分秘诀重难点34圆锥曲线中的定点、定值、定直线问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点35概率与统计的综合问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点31圆锥曲线中的切线与切点弦问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点30圆锥曲线中的弦长问题与长度和、差、商、积问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点29巧解圆锥曲线的离心率问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点28直线与圆的综合(举一反三专项训练)(全国通用)(含解析).docx
- 寡核苷酸药物重复给药毒性研究技术指南.docx
- 重组溶瘤腺病毒生产质量管理标准.docx
- 26高考数学提分秘诀重难点27直线与圆中常考的最值与范围问题(举一反三专项训练)(全国通用)(含解析).docx
原创力文档


文档评论(0)