- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章生物信息学教程PPT
;;分子生物信息学概述;——Margaret Dayhoff:
1960年,创立PSD,即PIR的前身
1983,NIH资助建立了PIR
1984,NBRF(National Biomedical Research Foundation)
开始负责维护该数据库,数年后,著名的SWISS-PROT数据库
被组建
;1982年,第一个核酸序列数据库GenBank(Los Alamos);二级数据库
在一级数据库、实验数据和理论分析的基础上,针对不同的
研究内容和需要,对生物学知识和信息的进一步整理得到的
数据库。
人类基因组图谱库GDB、转录因子和结合位点库
TRANSFAC、蛋白质序列功能位点数据库Prosite等。;基因组图谱;一个数据库记录(entry)一般由两部分组成:
1. 原始序列数据(sequence data)
2. 描述这些数据生物学信息的注释(annotation)
注释中包含的信息与相应的序列数据同样重要和有应用价值;人类遗传信息数据与科学家的社会责任;人类遗传数据国际宣言纲要(修正稿)联合国教科文组织国际生命伦理学委员会2003年1月,巴黎;一级数据库简介;1.) GenBank(美国国家生物技术信息中心,
NCBI)
1980sNIH(National Institute of Health) Los Alamos National Lab
NCBI(National Center for Biotechnology Information)
NLM(National Library of Medicine)
; 什么是GenBank?
GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸序列。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。
这些文件按类别分为几组:有些按照分类学划分,另外一些则按照生成DNA序列数据库的直接提交。这些作者将序列数据库作为论文的一部分来发表,或将数据库直接公开。; GenBank
GenBank是一个有13亿碱基,来自于100,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。
遗传密码-15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。
; 如何向GenBank提交序列
所有进入GenBank的记录都是靠直接递交进去,多数作者选用sequin 或 Bankit;NCBI网址: http://WWW./;;;;;;GenBank网址 http://WWW./Genbank/;; 如何访问GenBank
通过Entrez来查询。 用accession number,作者???名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。
用BLAST在GenBank和其他数据库中进行序列相似搜索。
另外一种选择是可以用FTP下载整个的GenBank和更新数据。
;2.) EMBL(欧洲分子生物学实验室,EMBL)
European Molecular Biology Laboratory
EBI(European Bioinformatics Institute)
; EMBL简介
EMBL是欧洲的主要核苷酸数据库,始建于1980年,由位于英国剑桥附近的欧洲生物信息学研究所(EBI)维护。EMBL数据库已处理自1982年以来全世界范围内所公布数据。
数据来源:基因组计划的序列、各研究人员直接递交的序列以及由欧洲专利事务所发送的专利序列。; EMBL
数据库包括:发行区( EMBL REL)
序列每日增添区( EMBL NEW)
EMBL 被划分为19个组(division),这些组的区分原则是
根据分类学(如HUM代表人,PLN代表植物,PRO代
表原核生物等)。此外,还有些根据资料特性进行分类(如
EST);EMBL数据库结构是按flatfile(平面文件)格式布局,包括四大类主要数据区(block)
第一区包括描述和标示符:如条目名称、保密状况、分子类
型、分类、序列总长度
第二区是引文区:引文详细内容以及原递交者姓名和联系方
式
第三区是特征区:包括序列的特征,如详细来源、生物特征、
特征性定位和限定词
第四区:由序列资料、长度和碱基组成;;;;;;;
您可能关注的文档
- 第二章 核酸的化学PPT.ppt
- 第二章 水钠谢紊乱(李利平)PPT.ppt
- 第二章 溶液依数性PPT.ppt
- 第二章 染色体的物质结构PPT.ppt
- 第二章 材料学基础知识PPT.ppt
- 第二章 现代会计理论研究方法PPT.ppt
- 第二章 物证分析的遗传学基础PPT.ppt
- 第二章 流体动力学(广州中医药大学药用物理学)PPT.ppt
- 第二章 核酸的分子结构与功能PPT.ppt
- 第二章 植物病害的病原菌-原核生物PPT.ppt
- 2-红河州建筑施工安全生产标准化工地复核评分表(2022年修改版).docx
- 6.锡通项目2018年下半年工作会汇报材料(2018.7.9).docx
- 2018道路工程知识点汇总(新版).docx
- 附件3:月度生产例会安全汇报资料-站台门项目部.docx
- 附件2:广东建工集团2018年度科技成果汇总表.DOC
- 马武停车区、三汇停车区停车位管理系统,0#台账缺量.doc
- 攀成钢委办发〔2015〕19号(党风廉政建设责任考核与追究办法).doc
- 1-红河州建筑工程质量管理标准化复核评分表(2022年修改版).docx
- 中交第三公路工程局第四工程分公司项目经济合同结算管理办法(修订).doc
- 厂站安全操作规程汇编.doc
文档评论(0)