序列相似性搜索.pptVIP

  • 377
  • 0
  • 约 71页
  • 2017-02-04 发布于江苏
  • 举报
生物信息学 序列相似性搜索 BLAST 主要内容 一、BLAST简介与意义 二、BLAST算法 三、BLAST一般使用方法 四、BLAST搜索实例 五、BLAST策略 一、BLAST简介与意义 BLAST的应用 确定直系同源序列或旁系同源序列。如当一个新的细菌基因组被测序后,几千种蛋白质被确定,其中有多少蛋白质是同源的?从这里面预测出的基因中有多少是在GenBank中找不到显著性同源物的? 确定哪些蛋白质和基因在特定的物种中出现。植物中是否也存在象RBP这样的脂质运载蛋白?鱼类中是否有反转录酶基因(如HIV-1 pol基因)? 确定一个DNA或者蛋白质序列身份。如通过芯片实验得到一个感兴趣的基因,那么就可以通过将这个DNA序列在一个蛋白质数据库中进行搜索,来寻找哪些蛋白质与该DNA编码的蛋白质具有相关性。 发现新基因。例如,一个对于全基因组DNA的BLAST搜索可能会发现一个DNA所编码的蛋白质是以前所没有报道过的。 确定一个特定基因或者蛋白质有哪些已经发现的变种。例如,很多病毒都具有极强的突变能力。HIV-1 pol有哪些已知的变异体? 研究可能存在多种剪接方式的表达序列标签。 寻找对于一个蛋白质的功能和/或结构起关键作用的氢键氨基酸残基。 二、BLAST算法 数据库搜索相似序列的基础是序列的相似性比对,就是将查询序列与数据库里面的序列逐一的两两比对分析。 由于现在数据库信息量很大,这样简单重复的分析非常耗时。所以开发了一些近似的算法以提高速度,目前使用最广泛的序列对数据库相似性搜索的应用程序是FASTA和BLAST。 BLAST算法跟之前讲的动态规划法算法有所不同,处理速度更快。 二、BLAST算法 这个算法可以描述为3个步骤 第一步: 编译一组阈值高于T的 word pairs (w=3)。 例: 对于人 RBP 查询序列…FSGTWYAMAKKDP… 得到一列 words (w=3) : FSG SGT GTW TWY WYA YAM AMA … 第一步 模块氨基酸替换矩阵 第二步 扫描数据库,得到与编译列表匹配的记录,称为序列片段对(segment pair)。它是两条给定序列中的一对子序列,它们的长度相等,且形成无空位的完全匹配。由于在序列片段对查找过程中不考虑空位字符,即不考虑插入和删除操作,所以运行速度非常快。 第三步 最初是不考虑空位插入,但在生物的进化过程中碱基的插入或缺失突变是普遍存在的,因此比对结果通常会出现一些无空位但不连续的区域,若将有些高分分值片段对通过一些相似性较低且有空位的片段连接起来,就能组成一些更长的或许更有实际生物学意义的比对。 基于上述思路,改进的BLAST算法允许空位出现,在多个HSP中,找一个最好的得分最高的片段对(maximal segment pair,MSP),以此为基础运行动态规划法将这一片段向序列的两端延伸,最终产生一个记分较高的最佳比对结果,且可能有空位插入。 BLAST算法小结 word pairs——segment pair——high-scoring pair,HSP——maximal segment pair。 随机事件与统计显著意义的事件 HSP是否有生物学意义呢?序列相似性不一定就是有生物学意义的,随机也会产生一定的相似性序列。 一段序列的出现是不是随机事件? 简单的一个模型:假设一个数据库有100条数据,每个数据长度是4,随机给一条长度为4的序列(GGAC)在数据库中能找到的概率有多大呢?(大约32%,这个值叫P【probability】值)。【每个字符(ATGC)出现的概率同等:1/4】。 BLAST中一般用一个E值(Expectation value)来表示比对的显著性。 E值表示如果数据库是随机序列,那么得到同样的比对结果的序列的频率。这个值越小越好,说明越有生物学意义。 三、BLAST一般使用方法 (1) 选择BLAST程序 (2) 得到并输入查询序列 (3) 选择搜索的数据库 (4) 选项选择 Then click “BLAST” 进入BLAST界面 进入BLAST界面 help (1)选择程序 nucleotide blast:查询序列为核酸序列,搜索(比对)的数据库为核酸数据库,包括正义链(plus)和反义链(minus)。 protein blast:蛋白质序列对蛋白质序列。 blastx:查询序列为核酸序列,数据库为蛋白质数据库,6种可能翻译方式。 tblastn:查询序列为蛋白质序列,数据库为核酸序列。 tblastx:数据库和查询序列都为核酸序列,但是进行蛋白质的比对,也就是每两条序列要进行36次比对。 (2)输入序列 输入说明 输入格式说明 1)FASTA格式 2)Bare Sequence 2)Bare Sequence 3)I

文档评论(0)

1亿VIP精品文档

相关文档