蛋白质结构预测及方法介绍2.docVIP

下载本文档

69
0
约2.38万字
约 29页
2019-04-10 发布于江西
举报

蛋白质结构预测及方法介绍2.doc

随着蛋白质结构数据的积累，人们开始注意到一些较简单的序列与结构关系。可以利用各种氨基酸的疏水值定位蛋白质的疏水区域，通过疏水氨基酸出现的周期性预测蛋白质的二级结构。Lim等人很早就对α螺旋和β折叠归纳出了一套预测模式。例如α螺旋的轮状结构特征，轮的一侧通常处于蛋白质的疏水核心，另一侧则常处于亲水表面，如图7.2所示。因此，α螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性，亲水残基多出现在亲水侧面，而疏水残基则多出现在疏水侧面，反映在序列上就是一些特征的亲疏水残基间隔模式。疏水性氨基酸的位置有助于推断蛋白质中二级结构的定位，通过显示疏水氨基酸的分布分析二级结构。例如，图7.2 是利用HELICALWHEEL程序画出的蛋白质蜂毒素旋轮图。图中各个氨基酸沿螺旋排布，相邻氨基酸之间的旋转角度为100o。疏水性氨基酸L、I和V位于螺旋的一侧，而亲水性氨基酸则分布在另外一侧，显示这个螺旋的两亲特性。根据蛋白质序列中疏水性氨基酸出现模式，可以预测局部的二级结构。例如，当我们在一段序列中发现第i、i+3、i+4位是疏水氨基酸时，这一片段就被可以预测为α螺旋；当我们发现第i、i+1、i+4位为疏水氨基酸时，这一片段也可以被预测为α螺旋。同样，对于β折叠，也存在着一些特征的亲疏水残基间隔模式，埋藏的β折叠通常由连续的疏水残基组成，一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式。不过，由于β折叠受结构环境的影响较大，序列的亲疏水模式不及α螺旋有规则。原则上，通过在序列中搜寻特殊的亲疏水残基间隔模式，就可以预测α螺旋和β折叠。在Biou等人提出的点模式方法中，将20种氨基酸残基分为亲水和疏水残基，用八残基片段表征亲疏水间隔模式。以一个二进制位代表一个残基，疏水为1，亲水为0，共八位。这样，八残基片段的亲疏水模式就可用1个0~255的数值来表示。α螺旋的特征模式对应的值为9，12，13，17，……，201，205，217，219，237；β折叠的特征模式则由连续的1或交替的01构成。在进行二级结构预测时，根据氨基酸片段计算点模式，如果点模式的值为α螺旋的特征数，则片段预测为α螺旋；若为β折叠的特征数，则片段预测为β折叠。其余的预测为无规则卷曲。这种方法的三态预测准确率为55%左右，其中对无规则卷曲预测过多，而对β折叠则预测不足。当序列长度小于50时，准确率较高。上述方法定性描述序列片段的亲、疏水特征，通过特征模式识别来预测蛋白质的二级结构。另一种方法是直接计算序列片段的疏水性和疏水矩，并根据定量计算结果预测该片段对应的二级结构。序列片段疏水性计算的方法依赖于各个氨基酸残基疏水值。对于一条蛋白质序列，用一个滑动窗口扫描该序列，计算滑动窗口下各个氨基酸的平均疏水值和疏水矩。窗口的宽度是可以调整的，一般取9~15残基的窗口宽度，以获得较多的信息和较小的噪声干扰。平均疏水值的计算公式如下：其中Hi是片段第i残基的疏水值。疏水矩的计算公式如下：其中Si是a碳原子到侧链中心的单位矢量。按照公式（7-12）的计算结果，画出整个蛋白质的疏水曲线，形成疏水性图。图7.3是人类视紫质蛋白的疏水图。与蛋白质疏水图相对应的是蛋白质的疏水矩图。通过分析这些图谱，可以帮助预测蛋白质的二级结构。 7.2.5 最邻近方法早期，由于缺乏数据，预测方法大多是基于单条序列的。随着序列和结构数据的增加，人们的研究转向同源序列分析，充分利用隐藏在同源序列中的结构信息，使得结构预测的准确率得到了较大的提高。同源分析的基础是序列比较，通过序列比较发现相似的序列，根据相似序列具有相似结构的原理，将相似序列（或者序列片段）所对应的二级结构作为预测的结果。在Levitt等人建立的方法中，将待预测的片段与数据库中已知二级结构的片段进行相似性比较，利用打分矩阵计算出相似性得分，根据相似性得分以及数据库中的构象态，构建出待预测片段的二级结构。这一方法对数据库中同源序列的存在非常敏感，若数据库中有相似性大于30%的序列，则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列Ti进行多重比对，对于U的每个残基位置，其构象态由多个同源序列对应位置的构象态决定，或取出现次数最多的构象态，或对各种可能的构象态给出得分值。基于上述的策略，最邻近方法（Nearest Neighboring methods）在预测二级结构方面包括两个过程，一是学习过程，二是预测过程。在学习阶段，用一个滑动窗口（例如长度为15）扫描已知结构的训练序列，序列个数为几百个，并且这些序列彼此之间的相似性很小。通过窗口扫描形成大量的短片段（称为训练片段），记录这些片段中心氨基酸残基的二级结构。在预测阶段，利用同样大小的窗口扫描给定的序列U，将在每一个窗口位置下的序列片段U’

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

蛋白质结构预测及方法介绍2.docVIP