《生物信息学》第五章:蛋白质结构预测与分析(第二部分)
计算方法预测三级结构:穿线法 I-TASSER
虽然同源建模是蛋白质结构预测的首选方法,但是对于那些找不到合适模板(一致度大
于 30%的模板)的蛋白质,此方法并不适用。这种情况下可以尝试穿线法(threading)。穿
线法基于的原理是:不相似的氨基酸序列也可以对应着相似的蛋白质结构。
PDB 数据库里已解析出的真实蛋白质结构每天都会增加,但是从 2008 年开始就再没有
新的结构拓扑产生了(图 1)。换言之,目前发现的蛋白质结构的种类已定格在 2008 年的 1393
种了,即已知的 10 万多个结构,根据结构拓扑划分,分成了 1393 种。新解析出来的结构必
定属于其中之一。而具有同一结构拓扑的蛋白质,序列水平上有相似的,也有不相似的。
图 1.PDB 数据中解析结构的结构拓扑数量年增长情况
在上述前提下,我们可以把目标序列像线一样穿到目前现有的结构里,看穿到哪个结构
里最舒服,哪个结构就可以作为预测的模板,并根据最舒服的穿法,构建出最终模型。那怎
么知道穿的舒服不舒服呢?通过能量方程。穿的舒服,能量就低,穿的不舒服,能量就高。
这和我们穿衣服一样。穿上一件不合身的衣服,你肯定老在那扭啊扭的不得劲,这老动换能
量就高啊!要是穿上件合身的,那就能待住不动了,这能量不就降下来了。穿线法就是通过
计算目标序列穿到每一个已知结构中的每一种穿法下的能量,找到能量最低的那种穿法以及
所穿的结构,然后把目标序列中的氨基酸替换到模板结构里来构建结构模型的(图 2)。显
然这种方法的计算量较同源建模法要大得多,因此预测需要耗费更久的时间。
2.
中都名列第一。CASP 全称是蛋白质结构生物信息预测国际竞赛。两年一届。每次比赛,参
与者们会对一组即将公开的结构进行预测。再将预测模型和真实结构进行比较,看谁预测的
最准。咱们中国上海交大电子信息与电器工程学院的沈红斌教授的研究组在 CASP11 中取得
了第三名。这是中国代表队截至目前取得的最好成绩。
张阳教授的 I-TASSER 可以在线提交预测任务(图 3),不需要提前下载安装。提交氨基
酸序列进行预测前需注册获得用户名密码,注册是完全免费的。再给任务起个名字。最后点
Run I-TASSER。
图 3. I-TASSER 提交页面
任务提交之后,请记住任务号或保存结果网址,以便日后查看。此外,通过点击 Queue
链接,可以查看当前的所有任务进程(图 4)。从图 5 的任务列表里可以看出,穿线法需要
的时间确实比同源建模法多得多,提交的这条示例序列需要计算大约 35 个小时。这里请注
意,一个用户或一个 IP 地址一次只能提交一个任务。
图 4. 查找已提交任务
图 5. Queue 页面查看所有任务
此外,还可以通过搜索链接,搜索任务号找到任务,或者搜索账号找到账号下所有的任
您可能关注的文档
- 5.1蛋白质的结构.pdf
- 5.2蛋白质的二级结构-01-DSSP指认.pdf
- 5.2蛋白质的二级结构-02-PDB获取.pdf
- 5.2蛋白质的二级结构-03-软件预测.pdf
- 5.3 抗体药物治疗.pdf
- 5.3 影响电极电势的因素-能斯特方程.pdf
- 5.3蛋白质的三级结构.pdf
- 5.4 电极电势的应用.pdf
- 5.4三级结构可视化软件VMD-03-multiple representations.pdf
- 5.5计算方法预测三级结构-01-介绍.pdf
- 5.5计算方法预测三级结构-04-从头计算法QUARK.pdf
- 5.5计算方法预测三级结构-05-综合法ROBETTA.pdf
- 5.5计算方法预测三级结构-06-模型质量评估.pdf
- 5.6三级结构的比对-01-SuperPose叠合.pdf
- 5.6三级结构的比对-02-SPDBV选择叠合.pdf
- 5.7蛋白质分子表面性质-01-VMD创建PSF文件.pdf
- 5.7蛋白质分子表面性质-02-APBS计算表面电荷分布.pdf
- 5.8获取蛋白质四级结构.pdf
- 5.9蛋白质-蛋白质分子对接-01-常用对接软件ZDOCK.pdf
- 5.9蛋白质-蛋白质分子对接-02-相互作用面分析PDBePISA.pdf
原创力文档

文档评论(0)