5.5计算方法预测三级结构-03-穿线法I-TASSER.pdf

5.5计算方法预测三级结构-03-穿线法I-TASSER.pdf

《生物信息学》第五章:蛋白质结构预测与分析(第二部分) 计算方法预测三级结构:穿线法 I-TASSER 虽然同源建模是蛋白质结构预测的首选方法,但是对于那些找不到合适模板(一致度大 于 30%的模板)的蛋白质,此方法并不适用。这种情况下可以尝试穿线法(threading)。穿 线法基于的原理是:不相似的氨基酸序列也可以对应着相似的蛋白质结构。 PDB 数据库里已解析出的真实蛋白质结构每天都会增加,但是从 2008 年开始就再没有 新的结构拓扑产生了(图 1)。换言之,目前发现的蛋白质结构的种类已定格在 2008 年的 1393 种了,即已知的 10 万多个结构,根据结构拓扑划分,分成了 1393 种。新解析出来的结构必 定属于其中之一。而具有同一结构拓扑的蛋白质,序列水平上有相似的,也有不相似的。 图 1.PDB 数据中解析结构的结构拓扑数量年增长情况 在上述前提下,我们可以把目标序列像线一样穿到目前现有的结构里,看穿到哪个结构 里最舒服,哪个结构就可以作为预测的模板,并根据最舒服的穿法,构建出最终模型。那怎 么知道穿的舒服不舒服呢?通过能量方程。穿的舒服,能量就低,穿的不舒服,能量就高。 这和我们穿衣服一样。穿上一件不合身的衣服,你肯定老在那扭啊扭的不得劲,这老动换能 量就高啊!要是穿上件合身的,那就能待住不动了,这能量不就降下来了。穿线法就是通过 计算目标序列穿到每一个已知结构中的每一种穿法下的能量,找到能量最低的那种穿法以及 所穿的结构,然后把目标序列中的氨基酸替换到模板结构里来构建结构模型的(图 2)。显 然这种方法的计算量较同源建模法要大得多,因此预测需要耗费更久的时间。 2. 中都名列第一。CASP 全称是蛋白质结构生物信息预测国际竞赛。两年一届。每次比赛,参 与者们会对一组即将公开的结构进行预测。再将预测模型和真实结构进行比较,看谁预测的 最准。咱们中国上海交大电子信息与电器工程学院的沈红斌教授的研究组在 CASP11 中取得 了第三名。这是中国代表队截至目前取得的最好成绩。 张阳教授的 I-TASSER 可以在线提交预测任务(图 3),不需要提前下载安装。提交氨基 酸序列进行预测前需注册获得用户名密码,注册是完全免费的。再给任务起个名字。最后点 Run I-TASSER。 图 3. I-TASSER 提交页面 任务提交之后,请记住任务号或保存结果网址,以便日后查看。此外,通过点击 Queue 链接,可以查看当前的所有任务进程(图 4)。从图 5 的任务列表里可以看出,穿线法需要 的时间确实比同源建模法多得多,提交的这条示例序列需要计算大约 35 个小时。这里请注 意,一个用户或一个 IP 地址一次只能提交一个任务。 图 4. 查找已提交任务 图 5. Queue 页面查看所有任务 此外,还可以通过搜索链接,搜索任务号找到任务,或者搜索账号找到账号下所有的任

文档评论(0)

1亿VIP精品文档

相关文档