- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[生物信息学常用算法简介
生物信息学常用算法简介 北京大学生物信息中心 北京基因组研究所 李松岗 lsg@pku.eud.cn 010常用算法1:动态规划 动态规划算法是一种优化算法,它本质上是一种有效的穷举法。 它的基本想法是最优路径上的每一段都应该是局部的最优路径。 动态规划算法的典型应用:序列比对。 序列比对应用举例 序列组装 进化分析 保守区发现 蛋白质结构与功能预测 cDNA的基因组定位 基因结构与功能分析 序列比对模型 类型:全局比对与局部比对 需考虑的因素:替换,插入,删除 例:AGCTA–CGTACATACC AGCTAGCGTA– –TAGC 打分系统:替换矩阵。记为: σ(a,b) 其中a, b为我们考虑的字符集中的元素。 比对算法的目标,就是找到在给定打分系统下,得分最高的比对方式。 动态规划算法(全局比对) 两序列:A=a1a2a3……am B=b1b2b3……bn 用Ai,Bj分别表示上述序列的前i个和前j个碱基。 矩阵元素S(i, j)表示Ai,Bj所有可能比对中的最高得分。则有递推公式: S(i, j)=max{S(i-1, j-1)+σ(ai,bj), S(i, j-1)+σ(–,b),S(i-1, j)+σ(a,–)} 局部动态规划 递推公式改为: S(i, j)=max{0,S(i-1, j-1)+σ(ai,bj), S(i, j-1)+σ(–,b),S(i-1, j)+σ(a,–)} 局部动态规划图示 动态规划算法的改进 用动态规划方法进行序列比对,需要nm到nm2的计算时间和nm的存储空间。当序列很长时,常常无法计算。因此人们陆续提出了许多改进算法,能节省空间和时间。有兴趣的同学可参考相关文献。 其他DNA打分矩阵及其对比对结果的影响 例如: 若得分大于罚分,则可得到长的,有较多插入删除的结果;反之,则得到短的,局部的比对结果。 蛋白质序列比对的打分矩阵 PAM矩阵(Persent Accepted Mutation):基于进化模型的打分矩阵。 当进化过程中一条序列1%的氨基酸发生了突变,定义该序列在进化的历史上走过了1个PAM单位。此时定义的转移矩阵称为1-PAM的突变矩阵。Dayhoff 等(1978) 从 71个蛋白家族中的1300条近相关(closely related)序列出发(其中任何两对序列之间氨基酸残基差异不大于15%),通过构造进化树对序列进行联配,得到氨基酸对之间的联合概率分布。在此基础上得到了1-PAM的突变矩阵 。 表中各列满足 若fi (i =1~20)表示20种氨基酸在自然界中的分布,该矩阵还满足 由于fi 是自然界中氨基酸经过长期进化后形成的一种稳定分布,因此满足关系 也就是说,可以通过对1-PAM突变矩阵外推得到n-PAM的突变矩阵,用来表示相距n –PAM进化单位的蛋白质之间氨基酸残基的突变概率。即 对250-PAM突变矩阵,有: 即经过250个PAM单位进化后的蛋白质分子,与它的祖先相比较,大约只有20%左右的氨基酸残基保持不变。 当我们通过动态规划对两个序列进行联配时,用到PAM突变矩阵的另一种形式,PAM打分矩阵,其中PAM-1打分矩阵定义为: PAM-250打分矩阵定义为: C 17 S -19 12 T -22 -13 12 P -33 -19 –20 13 A -18 -14 -18 -19 11 G -25 -19 -25 -25 -18 11 N -24 -16 -18 -24 -22 -19 13 D -32 -19 -20 -23 -21 -21 -14 13 E -35 -19 -21 -22 -19 -24 -20 -13 12 Q -29 -18 -19 -20 -19 -23 -17 -19 -13 14 H -22 -20 -20 -23 -22 -24 -15 -19 -19 -14 16 R -24 -20 -21 -23 -22 -22 -20 -24 -21 -15 -18 13 K -33 -20 -18 -22 -21 -24 -17 -20 -16 -14 -19 –13 12 M
文档评论(0)