- 2
- 0
- 约3.41千字
- 约 5页
- 2017-09-02 发布于福建
- 举报
基于距离函数蛋白质超二级结构β—α—β模体预测
基于距离函数蛋白质超二级结构β—α—β模体预测
摘 要:蛋白质超二级结构beta;-alpha;-beta;模体是蛋白质的重要组成部分,所以对蛋白质超二级结构的研究是非常有意义的。根据蛋白质超二级结构的保守性,用距离函数值对蛋白质中beta;-alpha;-beta; 模体进行识别,训练集5交叉检验预测总精度和相关系数分别是64.12%和0.31。距离函数应用于独立检验集进行检验预测精度达到71.14%。 关键词:蛋白质结构预测;beta;-alpha;-beta; 模体;距离函数 中图分类号:Q51 文献标识码:A DOI:10.11947/nyyjs.20160509001 引言 2个平行的beta;-strand被较长的loop连接,loop中间包含alpha;螺旋(alpha;-helical),并且2个beta;折叠片之间存在氢键,形成的结构模体beta;-loop-alpha;-loop-beta;叫做beta;-alpha;-beta; 模体,它是含有平行的beta;折叠(sheet)的蛋白质中的常见模体[1,5] ,它频繁的出现在每一个具有beta;折叠片的蛋白质结构中,在蛋白质结构中占有重要地位。因此,对beta;-alpha;-beta;模体的统计分析及预测是十分有意义的。 在本文中,建立了beta;-alpha;-beta;模体预测的数据库,整理并使用了2个蛋白质数据库分别作为预测的训练集和独立检验集,并且发展了距离函数来预测beta;-alpha;-beta; 模体,得到了较好的预测结果。 1 材料和方法 1.1 材料 数据库选取了EVA的1423个相似性小于33%的蛋白质,作为训练集[4],同时选取了426个非冗余的蛋白质链组成,序列相似性小于25%,分辨率小于2.0?,作为独立检验集。对训练集,获得二级结构为ECHCE模式的片断为3878个,利用PROMOTIF[3]获得beta;-alpha;-beta;模体分别为1622个,与ECHCE模式相匹配的1459个片断确认为beta;-alpha;-beta;,其余2419个确认为非beta;-alpha;-beta;;对独立检验集,有257条蛋白质链中至少包含一个beta;-alpha;-beta;模体,这个数据库中共得到310个beta;-alpha;-beta;模体和480个非beta;-alpha;-beta; 模体。 1.2 最佳序列片段长度的选取 蛋白质超二级结构是由二级结构单元所组成,而超二级结构的构象类型与连接肽所连接的二级结构单元的种类、连接肽的长度以及连接肽残基的构象密切相关,下面对序列对应的每一种二级结构进行详细的统计和分析,过程如下: 对模体beta;-alpha;-beta;模体和非beta;-alpha;-beta;模体中的氨基酸长度进行统计,见图1。在beta;-alpha;-beta;模体中,最少为8个氨基酸,最多为60个氨基酸,平均是28.5个氨基酸;在非beta;-alpha;-beta;模体中,最少为6个氨基酸,最多为86个氨基酸,平均为22.2个氨基酸。而对于全部ECHCE模式,含有6~29个氨基酸的序列数占85.7%。 通常情况下超二级结构模体的预测是来自序列预测,因此,要选取适合的序列信息。由图1分析,选取33个氨基酸是最佳序列模式长,能够包含比较全面的序列信息。 固定序列长的选取:当序列长为奇数时,序列的左侧比右侧多取一个氨基酸残基,当序列长为偶数时,序列两侧取相同的残基数。若序列不足33个氨基酸残基的,两侧添加空位补齐。获得beta;-alpha;-beta;模体1121个,非beta;-alpha;-beta;模体1890个。 上述选取方式,参考了Kuhn[2]、Kumar[4]和Cruz[3]等的对beta;发夹固定模式片段截取方法。 1.3 方法 1.3.1 距离函数 距离函数可以衡量所研究的样品之间存在的相似性,已被成功的应用于蛋白酶的预测研究。距离函数的计算公式如下: 1.3.2 精确评价指标 为了评价预测的正确率和预测方法的可信度,精度 (S)、Matthew相关系数 (Mcc)、 beta;-alpha;-beta;模体的敏感性(Sn)、非beta;-alpha;-beta;模体的敏感性(SnN)、beta;-alpha;-beta;模体的特异性(Sp)和非beta;-alpha;-beta;模体的特异性(SpN) 如下计算: p为真阳性样本序列数,r为真阴性样本序列数,u假阴性样本序列数,o为假阳性样本序列数。 2 结果与讨论 2.1 距离函数的预测结果 本文使用了距离函数对蛋白质超二级结构进行5交叉检验,得到了的预测结果见表1。Mcc的值为
您可能关注的文档
- 城市独生子女家庭养老责任及路径分析.doc
- 城市环境地球化学调查探究方法综述.doc
- 城市生态园林建设几点思索.doc
- 城市生态风景园林设计中植物主要功能及配置方法分析.doc
- 城市留守儿童行为问题社会个案发展策略探究.doc
- 城市生活垃圾处理现状及对策探析.doc
- 城市社区公共安全管理问题及应对策略探究.doc
- 城市社区公共文化服务多元化供给模式探究.doc
- 城市社区老年人健康管理探究.doc
- 城市私房拆迁问题及私法自治.doc
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)