- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于优化特征参量的蛋白质βαβ模体识别分析
本研究构建了2个数据集:一是来自1 423个相似性小于33%的蛋白质的1 459个βαβ模体和2 419个非βαβ模体;二是来自256个相似性小于25%的蛋白质的310个βαβ模体和480个非βαβ模体。通过分析模体中各二级结构单元的分布情况,确定了固定序列模式长为33个氨基酸残基,运用了一种基于优化特征参量的离散信息算法,识别了βαβ模体,取得了良好的效果。
1材料与方法
1.1数据
构建合理的数据集是蛋白质模体预测的关键,本研究中使用DSSP(definition of secondary structure of proteins)数据库和*****F软件来构建βαβ数据集,这是目前广泛应用的获得蛋白质特殊结构模体的方法。数据来自EVA(这是一种连续的、自动化、大规模的工作方式进行蛋白质结构预测算法评估的Web服务器http://b.uam.es/eva/)。从中选取了1 423个相似性小于33%、分辨率高于2.5的蛋白质作为数据集1(set1)和256个相似性小于25%、分辨率高于3.0的蛋白质作为数据集2(set2)。选取的蛋白质需要满足:(1)每个蛋白质序列中至少包含一个βαβ模体;(2)剔除含有不规则氨基酸的模体。序列及其对应的二级结构信息按DSSP库确定,文中在使用时将二级结构分为3类:H、I、G归为α螺旋,用H表示;E归为β折叠;其他都归为无规卷曲,用C表示。对set1,获得二级结构为ECHCE模式的片断为 3 878个,利用*****F软件分析获得βαβ模体片段为1 622个,其中与ECHCE模式相匹配的1 459个片断确认为βαβ,其余2 419个确认为非βαβ;对set2,获得的二级结构为ECHCE模式的片断为790个,利用*****F获得与ECHCE模式相匹配的310个确认为βαβ,其余480个确认为非βαβ。
1.2序列固定模式长的选取
复杂结构模体是由简单的二级结构连接而成,其二级结构单元的种类、连接肽的长度等信息影响着复杂结构模体的形成及功能。因此有必要对2个数据集的βαβ模体序列片段长、组成单元β折叠长、连接肽loop长和α螺旋长进行统计,结果如表1和表2。
从表1和表2的数据看出,2个数据集中各二级结构单元的分布情况基本一致,2个数据集的模体平均长分别为33、31个氨基酸残基左右,左右两端β折叠长为5个氨基酸左右,α螺旋长为10个氨基酸左右,这也说明了二级结构单元在βαβ模体中分布的特定性。因此,选取适合的序列信息是预测的关键步骤,根据2个数据集中序列的平均长度,为使得表1set1二级结构单元长度统计
预测过程中信息更好的进入序列,确定固定序列长为33个氨基酸残基。参照文献、和识别β发夹的思想,对βαβ模体进行以下3种截取方式,得到B00型、N05型和C29型。其具体截取方法为:
(1)以模体对应的二级结构CHC为中央位置对齐(B00型):当序列对应的二级结构CHC为奇数时,序列对应二级结构CHC的左端和右端取相同个数的残基;当序列对应的二级结构CHC为偶数时,序列对应二级结构CHC的左侧比右侧多取一个氨基酸残基。
(2)以序列左端loop的起始位点作为序列的第5位点,选取序列(N05)。
(3)以序列右端loop的终止位点作为序列的第29位点,选取序列(C29)。
选取过程中,若序列长不足33个氨基酸残基时,添加空位补齐。截取示意图如图1。
同时,为考察模体序列中氨基酸的保守性,计算了位点信息矢量,Ci定义如下:
Ci=100lgl(∑lj=1Pijlgpij+lgl)。
如果某一位点是完全保守的,可计算该位点Ci的值为100;如果该位点的氨基酸是随机分布的,同样可计算Ci的值为0。因此Ci取值在[0,100]之间。Ci的值在各自的取值区域内越高表明该位点的保守性越强。对set1的βαβ 3种取法对应序列位点的保守性计算结果如图2、图3、图4。
型左端氨基酸的保守性好于右端,这2种取法综合起来与B00型的保守性结果一致。因此本研究以位点氨基酸为参量来预测βαβ模体。
1.3计算方法
离散量是对离散性的度量,是信息系数之一,生物多样性指标和生物的关联性分析等都需要引入离散量。它是一种较好的模式识别分类器,离散量和离散增量定义如下:
定义1:对于s个信息符号的状态空间X,ni表示第i状态出现的个数,离散源X:[n1,n2,…,ns]的离散量为:
D(X)=D(n1,n2,…,ns)=NlogbN-∑si=1nilogbni。(1)
定义2:对于2个离散源X:[n1,n2,…,ns]和Y
文档评论(0)