蛋白质结构预测及方法介绍2.docVIP

  • 69
  • 0
  • 约2.38万字
  • 约 29页
  • 2019-04-10 发布于江西
  • 举报
随着蛋白质结构数据的积累,人们开始注意到一些较简单的序列与结构关系。可以利用各种氨基酸的疏水值定位蛋白质的疏水区域,通过疏水氨基酸出现的周期性预测蛋白质的二级结构。Lim等人很早就对α螺旋和β折叠归纳出了一套预测模式。例如α螺旋的轮状结构特征,轮的一侧通常处于蛋白质的疏水核心,另一侧则常处于亲水表面,如图7.2所示。因此,α螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性,亲水残基多出现在亲水侧面,而疏水残基则多出现在疏水侧面,反映在序列上就是一些特征的亲疏水残基间隔模式。 疏水性氨基酸的位置有助于推断蛋白质中二级结构的定位,通过显示疏水氨基酸的分布分析二级结构。例如,图7.2 是利用HELICALWHEEL程序画出的蛋白质蜂毒素旋轮图。图中各个氨基酸沿螺旋排布,相邻氨基酸之间的旋转角度为100o。疏水性氨基酸L、I和V位于螺旋的一侧,而亲水性氨基酸则分布在另外一侧,显示这个螺旋的两亲特性。 根据蛋白质序列中疏水性氨基酸出现模式,可以预测局部的二级结构。例如,当我们在一段序列中发现第i、i+3、i+4位是疏水氨基酸时,这一片段就被可以预测为α螺旋;当我们发现第i、i+1、i+4位为疏水氨基酸时,这一片段也可以被预测为α螺旋。同样,对于β折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式。不过,由于β折叠受结构环境的影响较大,序列的亲疏水模式不及α螺旋有规则。原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测α螺旋和β折叠。 在Biou等人提出的点模式方法中,将20种氨基酸残基分为亲水和疏水残基,用八残基片段表征亲疏水间隔模式。以一个二进制位代表一个残基,疏水为1,亲水为0,共八位。这样,八残基片段的亲疏水模式就可用1个0~255的数值来表示。α螺旋的特征模式对应的值为9,12,13,17,……,201,205,217,219,237;β折叠的特征模式则由连续的1或交替的01构成。在进行二级结构预测时,根据氨基酸片段计算点模式,如果点模式的值为α螺旋的特征数,则片段预测为α螺旋;若为β折叠的特征数,则片段预测为β折叠。其余的预测为无规则卷曲。这种方法的三态预测准确率为55%左右,其中对无规则卷曲预测过多,而对β折叠则预测不足。当序列长度小于50时,准确率较高。 上述方法定性描述序列片段的亲、疏水特征,通过特征模式识别来预测蛋白质的二级结构。另一种方法是直接计算序列片段的疏水性和疏水矩,并根据定量计算结果预测该片段对应的二级结构。序列片段疏水性计算的方法依赖于各个氨基酸残基疏水值。对于一条蛋白质序列,用一个滑动窗口扫描该序列,计算滑动窗口下各个氨基酸的平均疏水值 和疏水矩 。窗口的宽度是可以调整的,一般取9~15残基的窗口宽度,以获得较多的信息和较小的噪声干扰。平均疏水值 的计算公式如下: 其中Hi是片段第i残基的疏水值。疏水矩 的计算公式如下: 其中Si是a碳原子到侧链中心的单位矢量。 按照公式(7-12)的计算结果,画出整个蛋白质的疏水曲线,形成疏水性图。图7.3是人类视紫质蛋白的疏水图。与蛋白质疏水图相对应的是蛋白质的疏水矩图。通过分析这些图谱,可以帮助预测蛋白质的二级结构。 7.2.5 最邻近方法 早期,由于缺乏数据,预测方法大多是基于单条序列的。随着序列和结构数据的增加,人们的研究转向同源序列分析,充分利用隐藏在同源序列中的结构信息,使得结构预测的准确率得到了较大的提高。同源分析的基础是序列比较,通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果。在Levitt等人建立的方法中,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。这一方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列Ti进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。 基于上述的策略,最邻近方法(Nearest Neighboring methods)在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。在学习阶段,用一个滑动窗口(例如长度为15)扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小。通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U’

文档评论(0)

1亿VIP精品文档

相关文档