第三章数据库查询与搜索2.ppt

  1. 1、本文档共96页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章数据库查询与搜索2

第三章 数据库查询与数据库搜索 目 录 §3.1 引言 §3.2 数据库查询 §3.3 数据库搜索 §3.4 向数据库提交序列 三、Entrez查询系统 Entrez查询系统: 是美国国家生物信息中心(NCBI)开发管理的、国际上最为著名的生物信息数据库查询系统。该系统通过“交叉引用”(cross-references)的方法将各类信息包括DNA序列、蛋白质序列、蛋白质结构信息(如结构域和三维结构)、基因组和基因图谱及著名的PubMed文献信息等有机地整合在一起。 硬连接: 查询要点之二:关键词的书写规则 查询要点之三:辅助选项的巧妙使用 Limits 查询要点之四:利用子库之间的交叉引用进行信息查询 查询要点之五:全库查询 四、SRS查询系统 §3.3 数据库搜索 三、BLAST搜索 四、FastA搜索 五、Vast搜索 §3.4 向数据库提交序列 The end! 在分子生物学研究中,对于新测定的核酸序列或氨基酸序列,如何获得其基本信息,研究其相关功能? 要解决这些问题最简单的方法就是和其它已知序列进行比较,根据其相似性推断其功能。这种方法在生物信息学中称为序列比对(Sequence Alignment) 寻找相似序列有哪些方法呢? Blast、FastA等搜索工具 Any G or A or T or C N not-C G or A or T D not-T(not-U) G or C or A V not-A G or T or C B Not-G A or C or T H Weak interaction (2 H bonds) A or T W Strong interaction (3 H bonds) G or C S Keto G or T K Amino A or C M Pyrimidine T or C Y Purine G or A R Cytosine C C Thymine T T Adenine A A Guanine G G 说 明 含 义 符 号 遗传密码表 氨基酸字母表 相似性(Similarity):是指序列比对过程中用来描述序列与目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。是一个可定量指标。 同源性(Homology):指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。 二者区别与联系 三层含义:序列相似,氨基酸残基特性相似,结构相似 1 用相似性来判断同源性,但具有相似性不一定具有同源性。 2 相似性高的序列不一定是同源性序列,判断同源性还需要实验证实。 一、基本概念 局部相似性:是指序列比对过程中仅考虑部分序列区域的相似性。 整体相似性:是指序列比对过程中从全长序列出发考虑序列整体的相似性。 蛋白质功能位点往往由较短的序列片段组成,这些序列往往具有较高的保守性。局部比对比整体比对具有更高的灵敏度,其结果也更具生物学意义。 实际应用中整体比对获得的结果往往不能反映实际的生物学意义。 1、打分矩阵(Weight Matrices) 1)核酸打分矩阵 等价矩阵表 BLAST矩阵 二、序列比对的得分系统 2)氨基酸打分矩阵 2、空位罚分体系 目的:空位的引入是为了补偿插入和缺失对序列相似性的影响,但不能太多。 缺点:空位罚分体系目前尚缺乏理论依据,而更多地带有主观色彩。 7个配对 11个配对 罚分方法有两种:固定罚分和仿射罚分[ Wx=g+r(x-1) ] /BLAST/ BLAST是NCBI开发的目前最常使用的数据库搜索工具,它是Basic Local Alignment Search Tool(基本局部相似性比对搜索工具)的缩写。 基本过程:首先找出检测序列和目标序列之间相似程度最高的片段,并作为内核向两边延伸,以找出尽可能长的相似性序列片段。 特点:1)运行速度快 2)使用最为广泛 五种基本的Blast 搜索方式 Blast主页 BLAST基本搜索过程 粘贴序列或选择文本 设置参数 占击:BLAST 点击:FORMAT 获得检测序列的搜索结果 搜索实例(ABA82129,SOD,蛋白序列) 第一步:选择合适的搜索方式 第二步:粘贴序列 第三步:点击Blast,获得搜索结果 搜索结果 E value(Expectation Value),期望值,代表序列之间相似性偶然发生的概率。E值越小意味着序列相似性偶然发生的机会越小,也就是相似性越能反映真实的生物学意义。 搜索结果 吴茱萸 柚子 结果下载 芝麻 FastA是EBI开发的序列搜索程序,是第一个被生物学家广泛应用的序列相似性搜索的程序。 FastA比Blast要慢一些,但是更灵敏。有时会花上数小时。 因此

文档评论(0)

peain + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档