[理学]2-3_4通俗版第二章核酸数据库及核酸序列的分析第三节核酸序列相似性分析和第四节核酸的多序列比对.ppt

[理学]2-3_4通俗版第二章核酸数据库及核酸序列的分析第三节核酸序列相似性分析和第四节核酸的多序列比对.ppt

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]2-3_4通俗版第二章核酸数据库及核酸序列的分析第三节核酸序列相似性分析和第四节核酸的多序列比对

* 帮助信息 各个参数选项 填入搜索序列 基本思想是:一个能够揭示出真实的序列关系的比对至少包含一个两个序列都拥有的字(片断),把查询序列中的所用字编成索引,然后在数据库搜索时查询这些索引,以检索出可能的匹配,这样那些命中的字很快被鉴定出来。 FASTA算法基础 1)、确定参数ktup,在两个序列中查找长度为ktup的、相匹配的片段(增强点)。为了提高速度,可以通过查询表格或hash表来完成,然后在表格中搜索与另一条序列相匹配的、长度为ktup的片段。 FASTA算法(一) 2)、在同一条对角线中临近的增强点成为一个增强段。每一个增强点都赋予一个正的分值,一个增强段中相邻的两个增强点之间的不匹配区域赋予一定的负值。一个增强段对应于一段相匹配的子序列,分值最高的段被标记为init1。 FASTA算法(二) 3)、引入indel。把那些没有重叠(non-overlap)的增强段拼接起来(增强段的分值之和减去空位处罚)。分值最高的区域记为initn。 FASTA算法(三) 4)、对最有可能的匹配序列进一步评分:以增强段init1所在的对角线为中心,划分出一个较狭窄的对角线带,利用S-W算法,来获得分值最高的局部比对,记作opt。 FASTA算法(四) 5)、决定采用initn或opt的分值,前者敏感度低但速度快。FASTA对每一个检索到的比对都提供一个统计学显著性的评估,以判断该比对的意义。 FASTA算法(五) 注意… FASTA对DNA序列搜索的结果要比对蛋白质序列搜索的结果更敏感。它对数据库的每一次搜索都只有一个最佳的比对,一些有意义的比对可能被错过。 两个保守区域的信息 Dot matrix 分析 用Dot matrix分析基因中的重复序列 使用Dotter在斑马鱼序列的contig中定位ddah基因的位置 A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis Erik L.L. Sonnhammer and Richard Durbin Gene 167(2):GC1-10 (1995) http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html BLAST比较结果中的3点说明: 1)、蛋白质和核酸中都会包括低复杂度区域(LCR —low complexity regions),即这些区域的组成有某些偏好,比如DNA中的简单重复序列(ct)n等。在蛋白质中一些残基过多表现。在进行BLAST比较时,将会把LCR屏蔽掉,防止它们过高评价匹配的显著性。在核酸中用n、在蛋白质中用X代替。 2)、在核酸比较结果中,上下相同的序列用竖线连接。在蛋白质序列比较结果中,上下相同的序列中间直接列出;如果比对的氨基酸不同,但结构类似则用 “+”号连接。 3)、HSP Score (高分片段配对分值)越高, E Value(偶然选中这片段的可能性)越小,就越能提供进化同源的证据。 具体匹配情况 Protein IELFFILSSIWLGRFYYVFGFLLIVLVLLVIVCAEVSVVLTYMNLCVEDWRWWWKAFFASGSVAIYVFLLYSINYLVFDLRSLSGPVSAMLYLGYSFLMAFAIMLATGTIGFLTSFSFVHYLFSSKID 第四节、核酸的多序列比对 1、Clustwal W简介和使用—— 进行核酸或蛋白质的多序列的比较 网址: http://www.ebi.ac.uk/clustalw http://www.ddbj.nig.ac.jp/search/clustalw-e.html 对Clustal W比较结果的说明:http://www.ebi.ac.uk/clustalw/help.html “*” means that the residues or nucleotides in that column are identical in all sequences in the alignment. “:” means that conserved substitutions have been observed。 “.” means that semi-conserved substitutions are observed. Show Colors A button labeled Show Colors will be displayed in the Alignment section of results page. If you press this bu

文档评论(0)

ipbohn97 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档