蛋白质β折叠股排列布局的研究生物信息学专业论文.docxVIP

  • 13
  • 0
  • 约5.28万字
  • 约 51页
  • 2019-01-27 发布于上海
  • 举报

蛋白质β折叠股排列布局的研究生物信息学专业论文.docx

蛋白质β折叠股排列布局的研究生物信息学专业论文

摘要摘要 摘要 摘要 蛋A质的B折叠结构是一种重要的蛋白质二级结构组件。研究B折叠结构 不仅有利于提高蛋白质结构预测的精度,而且能为揭示蛋A质折叠以及蛋白质 设计提供重要信息。为进一步探究蛋白质p折叠结构形成的潜在机制,本文重 点对13折叠股在D折叠结构中的排列布局展开研究。 研究中使用的蛋白质数据取自SheetsPair数据库中整合的PISCES服务器的 一个数据集。使用前剔除信息不完整及错误数据,筛选出均含G折叠结构的蛋 白质。基于筛选后的数据集用机器学习方法做了B折叠片层两方面的研究。 一是13折叠股在D折叠片层结构中配对关联规律的研究。在此研究中,除 D折叠股的真实配对外,设计了四类伪B折叠股配对,分别是B折叠股与非伴 侣B折叠股、Q螺旋、无规卷曲及非B折叠片段的配对。基于0折叠股的股间 平均氨基酸配对编码矩阵设计了特征提取算法,对配对片段进行特征提取。使 用支持向量机对四类伪B折叠股配对和真实B折叠股配对的两两组合进行分 类。分类结果显示,B折叠股在选择配对“伴侣”时能够显著地在各类候选配 对片段中区分出B折叠股片段,但并没有在B折叠股片段中选择真实配对的B 折叠股的强保守性选择能力。13折叠股这种非保守性选择B折叠股做配对伴侣 的特性可能是影响p折叠股排列形成D折叠片层结构的重要因素之一。 二是基于随机森林分类算法对B股在B折叠片层中边缘.内侧排列的预测 研究。将数据集中所有排列在B折叠片层边缘的岱折叠股视为正样本,在片层 结构的内侧13折叠股视:勾负样本。根据p折叠股对应的一级氨基酸残基序列进 行特征提取。基于其序列上的氨基酸的亲水值、输水值及侧链分子质量等特性, 并结合伪氨基酸组成法设计了复合特征提取算法。随机森林分类结果显示,在 10倍交叉检验的情况下,分类的准确率高达89.45%。这表明B折叠股在排列形 成B折叠片层时,边缘:和内侧B折叠股有较为显著的差异,在内外侧排列位置 上有一定的保守性。本研究的发现及分类预测结果对蛋白质结构预测研究以及 D折叠结构的形成机制具有重要的参考价值和积极意义。 关键词:蛋白质;B折叠结构;13折叠股排列;支持向量机;随机森林 Abstract—————————————————————————-——————一————————————————————————————————————————————————————————————————————一 Abstract —————————————————————————-——————一————————————————————————————————————————————————————————————————————一 Abstract Protein 13-sheets are an important component of protein architectures,which play a fundamental role in protein structure,function,evolution and bioengineering. The study of 13-sheets structure is not only beneficial to the improvement of the prediction accuracy of protein structure,but also can provide useful information for elucidating protein folding pathways and protein design.To further disclose the underlying mechanisms of protein[3-sheet formation,the 13-strand alignments in p-sheet structure was mainly explored in this study. The dataset of protein used in the study was extracted from the SheetsPair database into which a set ofprotein data from the PISCES server had been integrated. Incomplete and erroneous data were screened out before applied,and the p-sheet structure contained proteins was selected.Two studies of the 13-sheet were performed

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档