蛋白质跨膜结构及二硫键连接模式分析研究.pdfVIP

  • 60
  • 0
  • 约9.69万字
  • 约 57页
  • 2017-09-08 发布于安徽
  • 举报

蛋白质跨膜结构及二硫键连接模式分析研究.pdf

上海交通大学硕士论文 蛋白质跨膜结构与二硫键连接模式研究 摘 要 蛋白质二级结构预测是分子生物学中的重要问题。随着 蛋白质序列数据的飞速增长,己知的蛋白质序列和已知的蛋 白质结构之间的差距不断增大,蛋白质结构的预测变得越来 越重要。在蛋白质二级结构中,跨膜蛋白的结构预测非常重 要。跨膜蛋白在生物体中担负着各种各样的重要功能:细胞 的运输,如将营养物质和一些无机电解质输入细胞,而将有 毒的或无用的代谢产物排出细胞;细胞膜内外信号的传递及 能量转换。研究发现,在基因组中,有大约20%-30% 的基因 产物被预测为膜蛋白,这样的比率显示了跨膜蛋白在生物体 中的重要性。此外,在药物研发过程中,膜蛋白偶联受体是 绝大多数药物的作用靶点。膜蛋白的预测研究方法经过几十 年的发展,从最开始的统计方法,到最近十几年大量使用的 智能方法,已经获得很大的提高。 二硫键是由蛋白质的两个半胱氨酸之间配对形成的一 种共价键,可以存在于同一条蛋白质多肽链内,也可以存在 于不同的多肽链之间。对于许多蛋白质而言,二硫键是它们 最终折叠产物的永久特征。二硫键的形成是蛋白质折叠过程 第I 页 上海交通大学硕士论文 中的重要步骤,其形成动力学影响蛋白质折叠的速率和途 径,它的错误配对是影响蛋白质多肽链正确折叠的重要原 因。二硫键的存在对于维持蛋白质空间结构稳定性,保持其 生理活性具有至关重要的意义。 利用模式识别技术的生物信息学中,要解决蛋白质二硫键 结构连接模式的预测,需要解决如下几个问题:一是如何在 海量的数据集中提取用来作为输入的特征向量;二是如何采 用有效的降维方法降低输入特征向量的维数和冗余;三是使 用怎样的预测工具进行预测。 第一个问题关于提取特征。这项研究从很早以前就已经开 始。从早期蛋白质二级结构预测使用到的疏水性特征、氨基 酸组成成份,到后来使用到的PSSM 矩阵向量等等。在本文 中,作者结合了7 组不同的特征向量用于预测蛋白质二硫键 连接模式,它们包括:半胱氨酸偶联、20 种氨基酸组成成份、 半胱氨酸分离距离、半胱氨酸排序、蛋白质分子量、蛋白质 序列长度和蛋白质的二级结构信息。这些向量的总维数623, 经过PCA 的降维,维数降低到300 和500 维。 第二个问题关于特征降维。经过多年的发展,降维技术已 经非常成熟。现在比较常见的降维方法包括:(1) 以主成分分 析(Principle Component Analysis: PCA)为代表的基于重构误 差分析的降维方法;(2) 以线性判别分析(Linear Discriminant Analysis: LDA)为代表的基于类别信息获取最优分类方法的 第II 页 上海交通大学硕士论文 降维方法;(3) 以独立主元分析(Independent Component Analysis: ICA) 为代表的降维方法;(4) 以局部线性嵌入 (Locally Linear Embedding: LLE) 和等距映射(Isometric Mapping: Isomap)为代表的基于流形学习的降维方法。本文将 采用PCA 方法对623 维向量进行降维。 第三个问题关于预测工具。目前生物信息学中经常使用到 的预测工具包括:(1) 支持向量机技术(Support Vector Machine) ;(2)人工神经网(Neutral Network) ;(3)贝叶斯网络 (Bayesian);(4)隐马尔科夫模型(Hidden Markov Model) 。本文 使用支持向量机技术中的SVR,即支持向量回归技术。 论文的主要创新点有以下几点: 对已有的蛋白质二级结构预测算法进行研究,将当前的 预测算法分为

文档评论(0)

1亿VIP精品文档

相关文档