Uniprot蛋白数据库备课讲稿.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Uniprot蛋白数据库;之前,世界上最广泛使用的蛋白数据库为瑞士的SWISS-PROT计划建立的数据库,NHGRI的项目主任Peter Good介绍说。但由于编辑详细蛋白结构数据库时间紧迫,再加上资金短缺,SWISS-PROT无法跟上基因组学飞速前进的步伐,Good说。这种形势导致了TrEMBL的产生,这是计算机注释的SWISS-PROT分支数据库,目的是暂时储存日益增多的蛋白质结构信息。另外,美国的蛋白信息资源(Protein Information Resource ,PIR)也独立编辑其自己的数据库。后来,这三个计划的领导人将展开合作,将三大数据库合并为一个。联合起来的力量将“减少重复工作,由此也可以节省不必要的费用。”SWISS-PROT的领导人、英国剑桥欧洲生物信息研究院的Rolf Apweiler说道。,UniProt将是SWISS-PROT、TrEMBL和PIR三大数据库的最佳整合? 一个集中化的数据库十分重要,密歇根大学的肿瘤学家Samir Hanash对此表示同意。他同时也是人类蛋白组组织(Human Proteome Organisation)的主席。然而,Hanash提醒说,UniProt只是一个开始,还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息,他说。(2002年) 这句话不仅代表了Uniport数据库,也是代表了整个生物信息学,科研本就是站在巨人的肩膀上发展的,那么这个肩膀也得与时俱进了!;蛋白质序列从哪里来?;Uniprot主要功能;??网站的网址为/,先来看看全景图吧!这个数据库可以大致分为6个主题部分,如上图红框所示1、UniProtKB;2、UniRef;3、UNIParc;4、Proteomics;5、Supporting data。6、检索区;?这次我们先游览第一个主题,也是最经典的部分。(其实其他的主题我自己还没有完全搞明白) 1、UniProtKB(Universal?Protein Knowledge base)它是经过专家校验的数据集,又分成两部分(绿框部分,不用担心,这些都是免费的,不是那种滥收费园中园) ????????1.1、Swiss-Prot?(经过人工检查、校验的条目)? 高质量的、人工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过的计算分析结果。 ????????截止到昨天Swiss-Prot 包含556,196条记录,(??2010年8月10日有519,348 条记录,7年后增加了3万多条记录,评价每天大约10几条记录,速度还是比较慢的??) 1.2、TrEMBL (计算机自动注释的、未经人工校验的条目) 该数据主要是利用计算机对大量基因组数据流进行分析注释(人工校验速度暂时无法跟上数据的产生速度)。 ????????截止到昨天2017年03月19日TrEMBL 包含98,705,220条记录,(??2010年8月10日有110,636,205 条记录,7年后数据量减少了很多,估计是去掉了很多重复的数据)另外大家会注意到这里的数据是Swiss-Pro数据的100多倍。;?检索区主要是为了让有经验同学快速找到自己感兴趣的蛋白质,可以按照蛋白质的名称、序列,ID号等方式检索。; 红框2区可以让游客根据自己的喜好来显示蛋白质数据,比如可以只显示经过人工校验的条目;可以只看专属于某个物种的蛋白质;还可以检索物种分类;还有直接快速进入UniRef的通道以及视频化的帮助,演示文件;Entry:是UniProt的给每个蛋白质赋予的独一无二的ID号 Entry name: 是蛋白ID简要名字 Protein names: 蛋白质的名字 Gene names: 编码这个蛋白的Gene名字 Organism:蛋白质的种属来源 Length: 氨基酸长度;首先sp表示,Swiss-Prot数据库是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated) 。 P02769是蛋白在uniprot上的ID号,即蛋白的身份证号。 ALBU_BOVIN是蛋白在uniprot上的登录名,跟P02769是一个作用。 Serum albumin是蛋白名称,即蛋白的姓名啦。 OS表示Organism,也就是物种名称,数据库中的物种名称一般为拉丁名称,牛血清白蛋白Bostaurus当然是牛的拉丁。 GN表示gene name,即基因名称 PE表示ProteinExistence,即蛋白的可靠性,PE=1、2、3、4、5分别对应如下,可以看出数字越小可靠性越高: 1. Experimental evidence at protein level 蛋白质水平实验证据 2. Ex

文档评论(0)

138****7806 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档