- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 数据搜索与两两比对;具有连续相似区域的两条DNA序列的简单点阵图;滑动窗口技术
使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。
假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记
基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。 ;(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。 ;考虑这样的两条核苷酸序列:
AATCTATA和AAGATA 仅有三种比对方式;2.3 空位;2.3.1 简单空位罚分;2.3.2 起始罚分与长度罚分;插入/删除事件;多联核苷酸的插入删除事件相对于单个核苷酸来说会较经常发生。
统计结果表明,两条序列长度上的差异更可能是单个三联核苷酸的插入删除事件导致的,而多个不连续核苷酸插入删除事件的可能性比较小。
空位罚分
由序列中产生的新空位串引起的起始罚分和根据缺少的字符数而定的长度罚分。预设长度罚分小于起始罚分,以此建立的打分函数便能奖励空位连在一起的比对。;假设起始罚分为-2,长度罚分为-1,匹配得分为+1,失配得分为0,则对于;2.4打分矩阵;打分矩阵(Scoring Matrix);PAM矩阵(Point Accepted Mutation)
基于进化的点突变模型
一个PAM就是一个进化的变异单位, 即1%的氨基酸改变;式①中Mab为任意氨基酸b替代a的概率
式②中pa为氨基酸a未被替换的概率
;;针对不同的进化距离采用PAM 矩阵;2.5 动态规划: Needleman 和 Wunsch 算法;假设两条序列:CACGA和CGA,使用统一的空位和失配罚分
则:1、给第一条序列加一个空位
2、给第二条序列加一个空位
3、两条序列都不加空位
;如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得分,就可以计算出起始位点的不同的三种比对得分。动态规划算法通过计算部分序列比对得分并填入一个表格,直到整个序列比对被计算出来, 由此得到最优比对。;动态规划;填充表格;0;0;0;0;0;途中箭头指示了部分打分表中的合法路径,每条路径代表若干等价最优比对
路径自右下至左上排列自来分别是↖ ↖ ↖ ↑ ↑ ↖ ↖
根据这条线路,可以重建比对,可以得到以下这个得分为2的最优比对;2.6 全局对比与局部比对2.6.1 准全部比对;准全局比对;2.6.2 Smith-Waterman算法;局部比对时,表中小于零的位置用零代替;2.6.2 Smith-Waterman算法;2.7数据库搜索;2.7.1 BLAST及其家族;BLASTP搜索算法概述;2.7.2 FASTA及其相关算法;对于氨基酸序列FAMLGFIKYLPGCM,假设单词长度为1,那么:
目标序列TGFIKYLPGACT,那么
对照表格发现,甘氨酸( G )在第一个表中位置为5、12,在第二个表中为 -4、3,再观察其它出现了很多距离为3的情况,这一现象暗示了一个可能的合理比对。
通过两条序列的偏移表,即可发现相同的区域。;2.7.3 数据库搜索的比对得分与统计显著性;2.8 多重序列比对 (multiple sequence alignment);但是由于随着比对序列数量的增大,多重比对算法的复杂度呈指数级增加,就算是使用超级计算机或者工作站的分布式网络,要对20条以上具有一般长度与复杂度的序列进行比对,仍是非常棘手的问题。
因此??利用启发式的比对方法被提出来,这类方法不能保证产生一个最优比对,但是能找出一个近似最优的比对。;本章总结;课堂练习;课后作业
文档评论(0)