高通量测序就相关名词.pptxVIP

下载本文档

8
0
约4.08千字
约 13页
2019-01-18 发布于福建
举报
版权申诉

高通量测序就相关名词.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高通量测序就相关名词

高通量相关名词; Lane也叫channel，单泳道，每条泳道包含2列（column），每列分布有多个小区（tile）。不同的测序平台Flow Cell中所含的Lane不一样，如HiSeq 2000是2个flow cell，每个flow cell中含有8个lane；HiSeq 2500是包含2个mini flow cell（快速运行模式）和2个high output flow cell，两个模式不能同时运行，其中每个mini flow cell包含2个lane，每个high output flow cell中包含8个lane；Miseq系统的flow cell仅含有1个lane。 ? Cluster簇，在Illumina测序平台中会采用桥式PCR方式生产DNA簇，每个DNA簇才能产生亮度达到CCD可以分辨的荧光点。 ; 标签，在Illumina平台的多重测序（Multiplexed Sequencing）过程中会使用Index来区分样品，并在常规测序完成后，针对Index部分额外进行7个循环的测序，通过Index的识别，可以在1条Lane中区分12种不同的样品。 ? Barcode与Index同义，多指在Roche GS FLX 454测序平台的16S PCR产物的测序过程中接头序列所包含的的用来区分不同样本的序列。 ? PF%是指符合测序质量标准的簇的百分比，与测序的通量相关联。 ? ; 一种序列存储格式。一个序列文件若以FASTA格式存储，则每一条序列的第一行以“”开头，而跟随“”的是序列的ID号（即唯一的标识符）及对该序列的描述信息；第二行开始是序列内容，序列短于61nt的，则一行排列完；序列长于61nt的，则每行存储61nt，最后剩下小于61nt的，在最后一行排列完；第二条序列另起一行，仍然由“”和序列的ID号开始，以此类推。 Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。第一行以“@”符号开头，后面紧跟一个序列的描述信息；第二行是该序列的内容；第三行以“+”符号开头，后面可以是该序列的描述信息，也可省略；而第四行是第二行中的序列内容每个碱基所对应的测序质量值。 ? 高通量测序平台产生的序列标签就称为reads。 ; KEGG是有关Pathway的主要公共数据库（参考文献4，Kanehisa，2008），通过Pathway分析能确定蛋白质参与的最主要生化代谢途径和信号转导途径。KEGG中的pathway是根据相关知识手绘的，这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系；基因组信息主要是从NCBI等数据库中得到的，除了有完整的基因序列外，还有没完成的草图；另外KEGG中有一个“专有名词”KO（KEGG Orthology），它是蛋白质（酶）的一个分类体系，序列高度相似，并且在同一条通路上有相似功能的蛋白质被归为一组，然后打上KO（或K）标签。 ? K-mer是指将1条read连续切割，挨个碱基划动得到的一系列序列长度为K的核苷酸序列。通俗的说，就是把每条reads连续切割变成一段段长度为K的序列。我们给出的分析是K25，即把read连续切割为25bp大小的序列片段。Kmer统计一定程度上反映了测序样本的复杂度，即测序样本中的物种丰度。物种越复杂，相同的kmer被测到的次数就越小。 ; 测序得到的总碱基数与待测基因组大小的比值。如测一个物种的全基因组的重测序，基因组大小约为5G，测序获得100G的数据量，则测序深度为20×。指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖率是98%，那么还有2%的序列区域是没有通过测序获得的。 ? 在de novo测序中拼接软件基于?reads?之间的?overlap?区，拼接获得的中间没有gap的序列称为?Contig（重叠群）。 ; 基因组?de novo?测序，通过?reads?拼接获得?Contigs?后，往往还需要构建?454 Paired-end?库或?Illumina Mate-pair?库，以获得一定大小片段（如?3Kb、8Kb、10Kb、20Kb）两端的序?列。基于这些序列，可以确定一些Contig?之间的顺序关系，这些先后顺序已知的?Contigs?组成?Scaffold。 ? Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3……Contig 25。将Contig按照这个顺序依次