- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
blast相关内容
BLAST程序进行数据分析
主要内容1.基本概念2.常用BLAST程序介绍3. BLAST算法简介4. BLAST常用参数设置5.本地BLAST的安装步骤6.本地BLAST的使用
基本概念
相似性(Similarity)? 是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。同源性(Homology)? ?是指从某一共同祖先经趋异进化而形成的不同序列。只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。相似性和同源性的关系当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。总之不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。序列相似性比较和同源性分析序列相似性分析:就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;序列同源性分析:是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。常用的程序包有Phylip及Mega等进化分析软件;
全局比对与局部比对全局比对
寻找序列在全长范围内最佳比对(两个完整序列S1和S2之间的最佳比对)适用于两个整体相似性较高的序列。??常用算法如:Needleman-Wunsch algorithm(Needle)在线程序如: Needle
局部比对寻找序列在局部区域的最高比对打分。常用算法如:Smith-Waterman algorithm, blast,fasta等
局部相似性比对的生物学基础? 蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。? ?而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。
通过以上两个基本概念我们应明白BLAST属于一种局部比对程序,最终比对出的结果是序列之间的相似性。
BLAST(启发式算法)程序常用的两个评价指标Score:? ?使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大,结果越可信。E-value:? ?BLAST程序在搜索空间中可随机找到获得这样高分的序列的可能性(期望值),因此E-value越高,则代表结果越有可能是随机获得的,也就越不可信。搜寻空间大小约略等于查询序列的长度乘以全部database序列长度的总和,再乘以一些系数。我们在获得一个Blast结果时需要看这两个指标。如果Blast获得的目标序列的Score值越高并且E-value越低表明结果越可信,反之越不可信。
其它的一些重要关键概念HSP(High Scoring Pair):在局部比对时,得分高的匹配序列被称为高分值片段。LCRs(low compositional complexity regions):低复杂度区域,即这些区域的组成有某些偏好,比如DNA中的简单重复序列。在蛋白质中一些残基过多表现。在进行BLAST比较时,将会把LCRs屏蔽掉,防止它们过高评价匹配的显著性。在核酸中用n,在蛋白质中用X代替。gi(GenBank Index)特定于GenBank数据库中所赋予每一条序列的特定索引数字。nr(non-redundant database) 非冗余数据库,该库信息多,并且无冗余序列
2、常用BLAST程序BLAST(Basic Local Alignment Search Tool) 基于匹配短序列片段,并用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配的一种程序。主要的BLAST程序PSI-BLAST(位置特异的迭代 BLAST)这个程序主要用来l搜索蛋白质的“远亲”。首先,用户提交的蛋白质序列的所有“近亲”的列表被建立起来,然后这些蛋白质被结合成一种平均的“特征序列” 。再用这个特征序列在蛋白质数据库中进行搜索,就会找出更大的一组蛋白质的列表。再将这个蛋白质列表生成一个不同的特征序列,这个序列被用来迭代地运行上述过程。 通过在搜索中包含相关的蛋白质,PSI-BLAST对于寻找已知蛋白进化上的“远亲”的灵敏度要比一般的blastp高很多。其它的一些BLAST子程序Gapped BLAST 允许在它产生的比对(alignments)中存在缺口。Megablast该程序使用“模糊算法”加快了比较速度,可以用于快速比较两个较长的序列。di
您可能关注的文档
- 《某车间零件传送设备传动装置设计》课程设计报告书.doc
- 6湘潭大学研究生学位论文中期检查报告.doc
- 7分式方程.doc
- 7开题报告.doc
- 《生命活动主要承担者蛋白质》经典说课稿.doc
- 7脚手架及卸料平台施工方案.doc
- 4岁月心曲三字叙事诗(退休后的五年生活).doc
- 7利用bim对旧金山道路进行虚拟设计和施工.doc
- 7函数的基本性质(单调性奇偶性周期性)-教师版.docx
- 7实验8-描绘小电珠的伏安特性曲线.doc
- 大学生职业规划大赛《新闻学专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《应用统计学专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《音乐学专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《中医学专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《信息管理与信息系统专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《汽车服务工程专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《水产养殖学专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《市场营销专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《音乐表演专业》生涯发展展示PPT.pptx
- 大学生职业规划大赛《音乐学专业》生涯发展展示PPT.pptx
文档评论(0)