生物信息学(课堂PPT).pptVIP

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二 章 核酸序列分析 Nucleic?Acid?sequence?Analysis ;§2.1 生物信息学数据库 Bioinformatics database;生物信息学最重要的任务是从海量数据中提取新知识;生物信息学数据存在的问题;一、 生物信息学数据库;生物信息数据库的分类 一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 一级核酸数据库:EMBL database,GenBank database,DDBJ database 一级蛋白质序列数据库:SWISS-PORT database , PIR database 一级蛋白质结构数据库: PDB database 二级数据库 对原始生物分子数据进???整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立 人类基因组图谱库GDB 蛋白质结构分类数据库SCOP,CATH 蛋白质序列功能位点数据库Prosite;《核酸研究》杂志——《Nucleic Acids Research》(/)自1993年起,每年都会在第一期推出生物数据库特刊,介绍上一年度的数据库增加和更新情况。 至2010年,生物信息学数据库总数已达1230个。;2021/3/29;核酸序列数据库;*;二、核酸数据库 1 、国际三大核酸数据库;GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立。该中心隶属于美国国家医学图书馆,位于美国国家卫生研究院(NIH)内。 EMBL:欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre),主要位于英国剑桥Cambridge和德国汉堡Hamburg。 DDBJ:日本DNA数据库(DNA Data Bank of Japan), 由the National Institute of Genetics, NIG主管。;这3个大型数据库于1988年达成协议,组成合作联合体。它们每天交换信息,并对数据库DNA序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负责亚洲等),然后来自各地的所有信息汇总在一起,3个数据库的数据共享并向世界开放,故这3个数据库又被称为公共序列数据库(Public Sequence Database)。所以从理论上说,这3个数据库所拥有的DNA序列数据是完全相同的。你可以从中选择一个你喜欢的数据库;但是如果你的研究需要实时(24小时以内)的,则要注意这些数据库间的记录是会有差异的。 ;北京大学生物信息学中心(Centre of Bioinformatics, Peking University): 北京华大基因研究中心(中国科学院北京基因组研究所): /bgi_new/index.htm 清华大学生物系生物信息研究室: 中国科学院上海生命科学研究院生物信息中心: ;三、基因组数据库;大肠杆菌E Coli—— ECDC数据库 http://www.uni-giessen.de/~gx1052/ECDC/ecdc.htm 酵母菌Yeast ——CYGD数据库 http://mips.gsf.de/genre/proj/yeast/index.jsp 线虫 Caenorhabditis elegans ——AceDB数据库 /genome.shtml 果蝇 Drosophila ——FlyBase数据库 / 老鼠 Mouse ——MGD数据库 /genome/guide/mouse;;四、 数据库格式;FASTA 序列格式包括三个部分: (1)在注释行的第一行用字符“”标识,后面是序列的名字和来源 (2)标准的单字符表示序列 (3)可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。 FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源NBRF格式很相似。;说明3点: 序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。 从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。 文件中和每一行都不要超过80个字符(通常60个字符)。 ;核酸序列;组成序列信息字符串的符号必须为标准的国际生物化学联合会 (IUB)/国际纯粹与应用化学联合会 (IUPAC) 氨基酸或核苷酸的符号符号的大

文档评论(0)

789 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳春市海霄网络科技有限公司
IP属地广东
统一社会信用代码/组织机构代码
91441781MA52HUKW1K

1亿VIP精品文档

相关文档