- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE
PAGE0
T/CRHAXXX—202X
PAGE
PAGE15
PAGE
PAGE0
ICS11.020
CCSC05
团体标准
T/CRHAXXX—202X
————————————————————————————————————————
群体测序多组学数据汇交标准
Submissionstandardofmulti-omicsdataforpopulationsequencing
(征求意见稿)
202X-XX-XX发布202X-XX-XX实施
中国研究型医院学会发布
T/CRHAXXX—202X
PAGE
PAGE0
PAGE
PAGE0
目次
前言 Ⅱ
1范围 1
2规范性引用文件 1
3术语和定义 1
4缩略语 3
5总体要求 4
6汇交数据内容 4
附录A元数据目录…… 20
附录B元数据值域表…… 24
PAGE
PAGEI
PAGE
PAGE2
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。
本文件由中国研究型医院学会临床数据与样本资源库专业委员会提出。
本文件由中国研究型医院学会归口。
本文件起草单位:中国人民解放军总医院、深圳华大基因股份有限公司、北京携云启源科技有限公司、北京希望组生物科技有限公司
本文件主要起草人:。
PAGE1
PAGE1
T/CRHAXXX—202X
PAGE2
PAGE2
群体测序多组学数据汇交标准
范围
本文件规定了医院及科研机构汇交基因组、转录组、表观组、蛋白质组、代谢组、宏基因组等群体多组学的原始数据,以及经规范化处理的初始结果文件的应用标准。
本文件适用于医院及科研机构汇交基因组、转录组、表观组、蛋白质组、代谢组、宏基因组等群体多组学的原始数据和经规范化处理的初始结果文件,以及多组学数据信息的存储、管理、交换与共享。
规范性引用文件
下列文件中的内容通过本文件的规范性引用而成为本文件必不可少的条款。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T39908-2021科技计划形成的科学数据汇交通用代码集
GB/T39909-2021科技计划形成的科学数据汇交通用数据元
GB/T39912-2021科技计划形成的科学数据汇交技术与管理规范
GB/T42751-2023\t"/search/stdPage?q=GB/_blank"信息技术生物特征识别高通量测序基因分型系统规范
GB/T35890-2018高通量测序数据序列格式规范
GB/T29859-2013生物信息学术语
术语和定义
下列术语及定义适用于本文件。
原始测序数据Rawsequencingdata
通过碱基calling获得的原始数据,是FASTQ文件。
FASTQ格式FASTQformat
FASTQ是基于文本的、保护生物序列(通常是核苷酸序列)和其测序质量信息的、每四行表示一条序列的标准格式。
BAM格式BinaryAlignmentMapformat
BAM文件是一个二进制格式的文件,用于存储DNA测序数据的比对信息。它通常包含测序读段与参考基因组的比对位置、质量得分等信息。
BED格式BrowserExtensibleDataformat
BED文件是一种文本文件格式,通常用于描述基因组中的区域,如基因的外显子、染色体上的特定功能区域等。
VCF格式TheVariantCallformat
一种基因组变异数据的描述记录格式。
测序覆盖率Coverage
测序总数据量除以测序基因组大小。
1倍测序深度1X
测序得到的碱基总量与基因组大小比值为1。
20倍测序深度20X
测序得到的碱基总量与基因组大小比值为20。
Q20
测序数据中,碱基识别质量值大于20的碱基占所有碱基的比例。
注:碱基识别质量值为20时,表示碱基的正确率为99%以上,Q20≥95%,则表示测序数据中95%以上的碱基质量之大于20。
Q30
测序数据中,碱基识别质量值大于30的碱基占所有碱基的比例。
注:碱基识别质量值为30时,表示碱基的正确率为99.9%以上,Q30≥85%,则表示测序数据中85%以上的碱基质量之大于30。
平均读长Averagereadlength
测序数据中所有序列的平均长度。一般以
文档评论(0)