利用预测蛋白质序列裂解位点来定位凋亡蛋白.docVIP

下载本文档

97
0
约3.2千字
约 7页
2018-06-20 发布于福建
举报
版权申诉

利用预测蛋白质序列裂解位点来定位凋亡蛋白.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

利用预测蛋白质序列裂解位点来定位凋亡蛋白

利用预测蛋白质序列裂解位点来定位凋亡蛋白　　摘要：凋亡蛋白对于物种发育和生物体内平衡的维持发挥着非常重要的作用。对凋亡蛋白的亚细胞位点的准确预测有利于理解细胞程序性死亡的机理和其生物学功能。本文利用SignalP得到的裂解位点将肽链分成N-端信号序列和成熟端序列。通过提取两端序列的氨基酸组分（ACC）、伪氨基酸组分（Pse-AAC）和整个链的立体化学特性来描述一条蛋白质序列。最后将得到的特征向量输入到支持向量机（SVM）中来预测其亚细胞位置。对三个凋亡蛋白基准数据集进行Jackknife验证，得到的总体精度分别为93.9%，87.6%，91.5%。此外我们还利用了由Reinhardt和Hubbard构建的非凋亡蛋白基准测试数据集（NNPSL数据集）来验证本文的方法，对于真核和原核蛋白的预测准确度分别达到87.7%和94.8%。　　关键词：凋亡蛋白；SingalP；伪氨基酸组分；立体化学特性；Jackknife检验　　中图分类号：Q26 文献标识码：A 文章编号：1007-9599 （2012） 17-0000-02 　　1 介绍　　细胞凋亡，或者称为细胞程序性死亡，在控制细胞增殖和死亡的平衡中起着非常基础的作用。在一些重要的生物过程中，比如形态发生，组织内平衡，死亡或病毒感染细胞清除，自身反应性细胞系的免疫去除，凋亡蛋白都起了核心的作用。凋亡蛋白对多细胞生物的健康和正常发育很重要。它的异常激活会导致获得性免疫缺陷综合症（艾滋病），中枢神经系统退行性疾病，缺血性损伤等等。因此，理解细胞的凋亡机制对于这些疾病的临床治疗和药物研究都有很重要的意义。为了理解蛋白质的结构和功能，一个重要的方法是确定其所处的亚细胞位置。确定蛋白质亚细胞位置的方法可以分两类，一种是基于蛋白质信号肽的方法。Nakai和Kanehisa最早发展了一个专家系统和知识库用N-末端分选信号来预测蛋白质亚细胞的位置。第二种方法是Nakashima和Nishikawa提出的基于蛋白质序列和结构特征的方法，即利用蛋白质氨基酸组分来区分细胞内和细胞外蛋白质。这些方法都取得了不错的效果，但是忽视了蛋白质中各种分选信号生物信息。实际上新生蛋白质上都存在着信号肽，决定了蛋白质分子在细胞内的去向。如果合理利用蛋白质信号肽就能预测蛋白质亚细胞的定位。鉴于此，本文根据蛋白质信号肽和蛋白质序列特征提出了一种新的方法。首先使用SingalP将每一个序列分成N-末端信号和成熟端序列，然后提取出每一个序列的特征。引入伪氨基酸组分的目的是避免丢掉一些序列顺序信息。而氨基酸的立体化学特性（SP）则是子序列特性，引入这个特性的目的是提高预测质量。将Pse-AAC和SP通过SignalP算法得出一个公式（表示为PSSP）。基于数据集ZD98、ZW225、CL317，用jackknife检验总体预测精度分别达到了93.9%、87.6%、91.5% ，为了使结果更具有普遍性，基于NNPSL数据集，用PSSP测验得到的总体预测精度分别是94.8%、87.7%。　　2 方法和工具　　本文研究采用三种使用广泛的基准测试数据集：ZD98、ZW225、CL317数据集。ZD98数据集包括了43个细胞质蛋白，13个线粒体蛋白，12种其他的蛋白和30个等离子体的膜结合蛋白。ZW225数据集包括了70种细胞质蛋白，89种质膜蛋白质，25种线粒体蛋白和41种核酸蛋白质。CL317数据集包括了6个亚细胞的定位，112种细胞质蛋白，55种质膜蛋白质，34种线粒体蛋白质，17种分泌蛋白和52种核酸蛋白和47种面内质网蛋白质。这三个数据集的序列分布是由PISCES软件计算出来的。　　蛋白质序列包含的基本信息包括氨基酸组分。氨基酸组分是20个氨基酸在序列中的出现频率，通常用一个20维的特征向量表示。　　这里的、表示信号肽区域和成熟蛋白区域的氨基酸组分特性，是两种序列中的氨基酸的出现频率。考虑到N-末端信号肽区域和成熟蛋白质区域做出的不同贡献，这里引入一个参数作为这两个区域的加权值，其中的的最优值就是以0.1为间隔在0 ～10之内搜索得到。伪氨基酸组分（PseAAC）特征提取方法是由Chou提出的，假设有一个含有L个氨基酸残基的蛋白质链L：，根据Chou的PseAAC（伪氨基酸组分）离散模型，这里的蛋白质样本S可以表示成一个（20+ ）维的空间向量：　　前20个组分是20种氨基酸在序列中出现的频率，也就是传统的氨基酸组分。后λ维表示序列的附加特征，这里选择蛋白质序列的近似熵作为附加特征。　　这里的是蛋白质出现的20个氨基酸的标准化出现频率。是第j层序列相关因子。为的权重因子，用于调节氨基酸序列次序信息对分类系统的影响程度，本文设定为0.05。　　本文最后一个特征采用的是泰勒提出的氨基