基于模糊支持向量机膜蛋白折叠类型预测.docVIP

下载本文档

2
0
约5.13千字
约 11页
2018-05-28 发布于福建
举报
版权申诉

基于模糊支持向量机膜蛋白折叠类型预测.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于模糊支持向量机膜蛋白折叠类型预测

基于模糊支持向量机膜蛋白折叠类型预测　　摘要：现有的基于支持向量机(support vector machinc，SVM)来预测膜蛋白折叠类型的方法，利用的蛋白质序列特征并不充分，并且在处理多类蛋白质分类问题时存在不可分区域，针对这两类问题，提取蛋白质序列的氨基酸和二肽组成特征，并计算加权的多阶氨基酸残基指数相关系数特征，将3类特征融和作为分类器的输入特征矢量，并采用模糊SvM(fuzzy SvM，FSVM)算法解决对传统SVM不可分数据的分类，在无冗余的数据集上测试结果显示，改进的特征提取方法在相同分类算法下预测性能优于已有的特征提取方法；FSvM在相同特征提取方法下性能优于传统的SVM，二者相结合的分类策略在独立性数据集测试下的预测精度达到96.6％，优于现有的多种预测方法，能够作为预测膜蛋白和其它蛋白质折叠类型的有效工具。　　关键词：模糊支持向量机；跨膜蛋白；折叠类型；氨基酸残基指数　　中图分类号：Q617　文献标识码：A　文章编号：1007-7847(2007)104-0306-05 　　　　膜蛋白是生物膜功能的主要体现者，根据跨膜区片段的折叠类型的不同，整合膜蛋白可以分为两种主要的折叠类型：α螺旋跨膜蛋白(transmembrane α-heucal protcins，TMHs)和β-筒型跨膜蛋白(transmembrane β-barrel proteins，TMBs)，TMHs几乎存在于所有类型的细胞膜中，其跨膜区为具有强疏水特性的残基构成的螺旋段，TMHs担负着多种多样的功能，包括把营养物质和一些无机电解质输入细胞，而将有毒的或无用的代谢产物排出细胞，以及参与细胞膜内外信号的传递等作用，TMBs发现于革兰氏阴性细菌、线粒体和叶绿体的外膜，由8～22条β折叠链通过反平行排列构成类似于桶状的跨膜结构，TMBs同样具有重要的生物功能，如非特异性调控、组成运输离子和小分子的通道、控制分子(如麦芽糖、蔗糖分子)通过外膜、参与构成电位调控型阴离子通道等等，这两类跨膜蛋白具有不同的结构模体，但是同样都处于脂质环境，这使得它们结构特征不同于那些具有全0螺旋或者全β结构的球状蛋白(Globular Proteins，GPs)。　　近年来，一些基于生物信息学手段预测膜蛋白折叠类型方法被提出来，这些方法多数利用了蛋白质的一级序列特征(如氨基酸组成)??及物理化学性质，比如跨膜区的疏水性和两极性，基于对已知结构的蛋白质序列的氨基酸组成的统计分析，或者机器学习方法如神经网络(neuralnetwork，NN)、隐马尔可夫模型(hiddenMarkov models，HMM)，k最近邻(k-nearestneighbors，K-NN)以及支持向量机(supportvector machines，SVM)等，这些方法的缺点是所利用的蛋白质序列特征都比较简单，缺少对各种特征的综合利用，另外，基于SVM的预测方法虽然在测试中显示出了超过其它机器学习方法的预测性能，但都是用于解决一个两类问题(如识别TMHs和非7MHs)，在解决多类问题时(如同时识别TMHs、TMBs和GPs的问题)，容易出现分类盲区，也就是说，当一些输入样本不能被确切的定义为属于某一类时，传统的SVM对此缺乏很好的解决手段，为了解决这个问题，一些研究者先后提出了不同形式的模糊支持向量机(fuzzy supportvector machine，FSVM)，从而较好的解决了传统SVM的这个局限。　　本文针对在其它蛋白质折叠类型中识别TMHs和TMBs的多类分类问题，提出了一种蛋白质序列的组合特征计算方法，通过计算蛋白质序列的多类特征，采取合适的加权手段将这些特征组合，并采用FSVM作为分类器，解决了传统SVM的分类盲区问题，有效提高了预测性能。　　　　1　数据与方法　　　　1．1　数据集　　我们采用了由Gromiha和Suwa收集的一个包含1318条蛋白质数据的数据集，包括7MBs(377条)、TMHs(267条)和GPs(674条)3大类蛋白质数据，其中两类膜蛋白数据从PSORT-B数据库中筛选而来；GPs数据从PDB40D_1.省略/cd-hit/)对数据集中序列相似度进行了分析，去除了序列相似度大于40％的冗余序列，最后得到的数据集组成如下：TMBs (208条)，TMHs(206条)，GPs(673条，其中155条全α、156条全β、183条α+β和179条α/β)，为便于描述，我们称之为MCPl087数据集，该非冗余数据集可以从下列网址下载：http://www.cbrc.ip/～gromiha/omp/dataset2.html。　　　　1．2　序列特征提取　　这里，我们提出了一种由3类特征组合的蛋白质序列描