- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1第二章分子生物信息数据库
一、分子生物信息数据库简介2建立分子生物数据库诞生背景生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据
BDACE分子生物数据库应满足几个方面的主要需求:注释集成性时间性数据质量
分子生物数据库具有几个明显的特征:4数据库的更新速度不断加快数据量呈指数增长趋势数据库的复杂程度不断增加SWISS-PROT面向应用数据库使用频率增长更快数据库网络化先进的软硬件配置123456
5生物信息学数据库工具染色体核酸蛋白质基因组图谱DNA序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库二级数据库复合数据库基因组作图序列测定结构测定(二)、分子生物信息数据库种类
生物信息数据库一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
二、一级数据库简介7
(一)、基因组数据库81977年,最早获得的生物基因组全序列是噬菌体(53kb)来源于人类基因组计划及各种模式生物基因组计划
10
GDB(美国、加拿大)1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息中心管理.数据内容:(1)包括细胞遗传学标记、易碎位点、EST、contigs、重复片段等;(2)包含细胞遗传学图谱、连锁图谱、转录图谱,所有这些图谱都可以被直观地显示出来;(3)包括基因突变和基因多态性等数据;(4)与其它分子生物信息网络资源(EMBL、GenBank…)的链接。
AceDB线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组、小到单个序列的各个层次观察和分析基因组数据。http://数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…
(二)、序列数据库16原始序列数据(sequencedata)描述这些数据生物学信息的注释(annotation)
核酸序列数据库欧洲分子生物学实验室的EMBL(EuropeanMolecularBiologyLaboratory)美国生物技术信息中心(NationalCenterforBiotechnologyInformation)的GenBankhttp://日本遗传研究所的DDBJ(DNADataBaseofJapan)http:///
GenBankDDBJEMBL三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。
19
2、EMBL和GenBank数据库格式序列条目由两部分组成:核苷酸碱基排列顺序(sequencedata)注释(annotation)
21“ID”为序列的标识符行,包括登录号、类型,分子的长度“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“//”。EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation)
22EMBL标识字GenBank标识字含义IDLOCUS序列名称DEDEFINITION序列简单说明ACACCESSION唯一的序列编号SVVERSION序列版本号KWKEYWORDS与序列相关的关键词OSSOURCE序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置DT建立日期RNREFERENCE相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者RTTITLE相关文献题目RLJOURNAL相关文献刊物名或作者单位RXMEDLINE相关文献Medline引文代码RCREMARK相关文献注释RP相关文献其它注释CCCOMMENT关于序列的注释信息DR相关数据库交叉引用号FHFEATURES序列特征表起始FT序列特征表子项SQBASECONTENT序列长度、碱基数目统计数空格ORIGIN序列///
原创力文档


文档评论(0)