第三讲第二章Internet的核酸数据库资源1.ppt

下载文档 降价啦

13
0
约9.32千字
约 108页
2017-12-07 发布于江西
举报
版权申诉
保障服务

第三讲第二章Internet的核酸数据库资源1.ppt

1、本文档共108页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三讲第二章Internet的核酸数据库资源1

Internet的核酸数据库资源生物信息学系王珍珍分子生物学信息数据库核酸和蛋白质一级结构序列数据库基因组数据库生物大分子三维空间结构数据库上述三类数据库和文献资料为基础构建的二级数据库第一节核苷酸一级结构序列数据库 GenBank，DDBJ，and EMBL是当前最全面、规模最大的公共核酸数据库，收录了所有已知的核酸序列。这3个中心都可以独立地接受数据提交，而3个中心之间则逐日交换信息，并制成相同的充分详细的数据库向公众开放在这里以 GenBank为例做详细介绍。一、 GenBank数据库（一） GenBank的创建及维护创建于1982年，迅速发展于20世纪90年代 1988年美国成立国立生物技术信息中心（NCBI） 1992,NCBI承担起对GenBank DNA序列数据库的维护责任。一、 GenBank数据库（二） GenBank的数据类型及来源数据类型任意长度的cDNA片段单个外显子完整的cDNA 任意的基因片段，以致于包涵多个基因的片段数据来源个人或大规模测序中心直接递交的数据通过美国专利和商标局收集注册专利的序列信息 GenBank员工对3400中杂志进行检索与EMBL,DDBJ等大型数据库每日相互更新 GenBank每条数据包含对序列的精确描述，序列来源生物的科学名称及树状分类，以及特征数据栏，提供序列的蛋白编码区和具有特殊生物学意义的位点，如转录单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats），还提供特定序列编码的蛋白质序列。参考文献还给出其在MEDLINE上的特定标识号。网址：/Genbank/ 数据检索（三） GenBank数据库的结构 1.EST数据库分子生物学的中心法则就是指生物信息从DNA到RNA再到蛋白质，它构成了整个分子生物学的基础， 1.EST数据库 - 表达序列标签，短的、单次（测序）阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。长度经常介于200bp到500bp之间 /dbEST/index.html 数据的提交数据的提交网址:/BankIt/ t 数据的访问形式访问GenBank - 通过Entrez Nucleotides来查询。用accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。另外一种选择是可以用FTP下载整个的GenBank和更新数据。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。通过Entrez Nucleotides来查询。 2.通过ftp来访问dbEST。/repository/dbEST The following files are stored in this repository: dbEST的数据格式 dbEST的数据格式 gi number （genInfor identifier）是一个唯一标识一个特别序列的整数，每次当序列发生改变时gi编号将发生改变。但是对应的EST的名字不一定会发生改变。 The following subdirectories exist: FASTA格式 GenBank普通文件格式 — 参见GenBank记录样本和在GenBank公布通知中的详细描述，下载大多数最近的完全公告和日常积累或非积累更新数据。? ASN.1格式 — 摘要句法记号1，国际标准组织（ISO）数据表示格式，下载大多数最近的完全公告和日常积累或非积累更新数据。 FASTA格式 — 定义行号后只跟随序列数据（示例），。 FASTA格式 Fasta格式是一种相当标准的符合生物信息学的输出，很容易读取。 FASTA格式第一行是描述行，第一个字符必须是“”字符；随后的行是序列本身，一般每行序列不要超过80个字符，回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表；小写字符会全部转换成大写；单个“-”号代表不明长度的空位；在氨基酸序列里允许出现“U”和“*”号；任何数字都应该被去掉或换成字母(如，不明核酸用“N”，不明氨基酸用“X”)。 FASTA格式是通常被用于序列比对的标准格式 FASTA格式 FASTA格式 gi|120475024|gb|DV935719.1|DV935719 ART1 Lycopersicon esculentum cDNA Solanum lycopersicum cDN