- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学 第三讲:序列的采集、存储和查询 本章内容提要 1. DNA测序 2. 序列数据的存储 3. 序列数据的文件格式 4. 序列数据的查询 1. DNA测序 1. DNA一次测序的长度为500bp。 2.基因组的测序方案:将大的染色体打断成100kbp的片断,插入到BAC (Bacterial Artificial Chromosome)中。再随机打断,克隆,然后再组装成长的序列(contig)。 3. EST (Expressed sequence tag) 测序:细胞中mRNA反转录成cDNA,方向不定,测序。 4. UniGene: 为每一个基因创造一个唯一的条目,收集这个基因所有的ESTs. 5. GSS (基因组测序序列):类似于ESTs,来源基因组。 6. HTG (高通量基因组序列):高通量、尚未完工的DNA序列。 基因组测序:两种方案 1. DNA片段在染色体上的位置、方向已知。首先染色体被打断成150kbp左右的片段,然后克隆到BACs中,再进一步打碎,克隆,测序,组装。 2. “鸟枪法”,shotgun,随机将DNA片段打碎,克隆,测序,组装。DNA片段在染色体上的位置和方向未知。 2. 序列数据的存储 1. 核酸三大数据库:GenBank, EBI, DDBJ. 2. Ensembl数据库:基因组注释。 3. ESTs数据库; 4. UniGene数据库 5. Refseq数据库; 6. NCBI的Gene信息数据库; 7. 蛋白质序列:Swissprot/TrEMBL/UniProt数据库。 三大数据库之间的联系 GenBank中测序最多的20个物种 161.0版,2007.08 dbEST: 表达序列标签数据库 UniGene: An Organized View of the Transcriptom Refseq数据库 1. 提供高质量的,无冗余的,完整的序列信息; 2. 包括基因组的DNA,转录成的RNA以及蛋白质序列信息。 3. 序列文件的标识符: DNA/RNA序列,NM_XXXXXX; 蛋白质序列:NP_XXXXXX NCBI Gene 1. /sites/entrez?db=gene 2. 序列从Refseq数据库中得到; 3. 详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构,等等。 UniProt 1. 专家审核的蛋白质序列数据与知识库; 2. UniProt Knowledgebase:Release 12.1,2007.08 3. 包括: Swiss-Prot Release 54.1 of 21-Aug-2007: 277883 entries; TrEMBL Release 37.1 of 21-Aug-2007: 4754787 entries Swiss-Prot Release 54.1 TrEMBL Release 37.1 3. 序列数据的文件格式 1. DNA/RNA/氨基酸代码的标识 2. GenBank数据格式 3. UniProt 4. FASTA GenBank数据格式 GenBank的数据类型 UniProt数据格式 FASTA格式 4. 序列数据的查询 某天,Prof. Gene发现人的Hela细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡(表型,phenotype),通过实验的方法(例如,酵母双杂交),发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下(genotype): 问题: 1. 这是哪个基因? 2. 编码的蛋白质序列是怎样的? 3. 有没有保守的功能结构域 (domain)? 4. 它的功能是怎样的? 5. 它在真核生物中保守吗? 6. 有没有三级结构信息? NCBI: BLAST nucleotide blast Megablast: 找基因序列 提交序列 NM_001168.2:Survivin Survivin Gene info: 17号染色体 功能注释:Gene Ontology 结论1 1. 该基因为人的Survivin基因,染色体定位:17号染色体73733311;基因标识符:NM_001168.2; 2. 初步的功能分析:细胞周期,caspase酶的抑制因子,等等。 NM_001168.2:Survivin Human Survivin! 获取蛋白质的序列信息 Survivin:142aa 结论2 人的Survivin蛋白质包含142个氨基酸,序列标识符为:NP_001159.2 获取FASTA序列 FASTA格式的序列 PHI-BLAST: find domain 填入蛋白质的FASTA序列 BIR domain 结论3 Sur
文档评论(0)