基于主成分分析优化参数预测水解酶亚类.docVIP

基于主成分分析优化参数预测水解酶亚类.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主成分分析优化参数预测水解酶亚类

基于主成分分析优化参数预测水解酶亚类   摘 要:本文基于前人建立的数据库,以氨基酸组分、氨基酸紧邻组分、预测的二级结构、低频功率谱密度值和MEME模体及功能模体频数组成向量来表示序列信息,用主成分分析对序列向量进行分析,选取20个主要成分。将每条序列由20维向量来表示。用SVM算法对水解酶的亚类分别进行分类预测,在Jack-knife检验下的预测总精度为96.9%。   关键词:SVM算法 主成分分析 水解酶 模体   中图分类号:TP18 文献标识码:A 文章编号:1674-098X(2018)01(a)-0143-02   酶是一种生物催化剂,存活在细胞中,影响着细胞生长、代谢等生命过程的化学反应[1]近些年,许多研究者通过利用生物信息学建立了相应的酶序列的数据库,并通过分类预测算法及酶序列的相关特征建立数学模型对酶的家族类及其亚类的研究上取得了较好的预测结果。随着酶序列的相关特征的增多,用来表示序列的向量维数也相应的增加,急需对其进行优化,降低向量的维数,以提高预测的总精度。因此,本文将用主成分分析的方法来降低序列特征的维数,得到较好的预测精度。   1 数据库和方法   1.1 数据库   本文选取2011年由我们小组构建和整理新数据库,其中水解酶5个亚类共4498条序列。   1.2 特征参数   1.2.1 氨基酸组分   蛋白质序列都是由20种基本的氨基酸组成的。并反映了序列的全局信息。前人的研究表明,不同类的酶序列的氨基酸有一定的差异。因此,本文选用氨基酸组分的信息(A)作为参数,来表示酶的序列信息。我们可以将一条酶序列替换为一个20维的向量。   1.2.2 氨基酸紧邻组分   本文用氨基酸紧邻组分将每条酶序列用400维向量来表示,以反映序列的结构信息。将一条酶序列替换为一个400维的向量,同上一个参数。   1.2.3 预测的二级结构   对于蛋白质分子来说,它不仅只具有一级结构,还有二级结构等。而二级结构反映其空间结构信息。因此,本文选取预测的二级结构信息(P)作为特征参数。   本文所使用的二级结构信息是PSIpred(Position Specific Iterated pred)软件[2]。对于一条酶序列,我们用一个3维的向量来表示3种二级结构在该序列中出现的频数。   1.2.4 低频功率谱密度值(F)   功率谱密度可以反映蛋白质序列的次序信息,本文将用其作为参数取得了较好的预测效果[3],功率谱密度值的提取方法如下[4]。   (1)将酶序列转为成数字序列。   由于酶具有强疏水性,因此我们使用疏水值作为参数[6],使得每条酶序列变成数字序列。   (2)离散傅里叶变换。   酶序列数字化后,对它进行离散傅里叶变换,具体公式如下:   1≤k≤L   (3)提取功率谱密度值:,其中T为周期。   (4)功率谱密度值的处理。   因为每条酶序列长短不同,比较和分析其特性有一定的限制,需将长度不同的酶序列变为相同长度。因此,根据信号的组成特点,本文将每条酶序列都转换成15维的向量。   1.2.5 MEME模体和功能模体   模体是刻画蛋白质结构和执行功能的重要部分。因此,通过对模体的研究,我们就能得到该序列的功能信息及结构特征。本文选用已被广泛用于DNA及蛋白质序列中模体搜索的MEME在线搜索器作为搜索工具[3]来搜索水解酶中的模体。本文限定6~15个氨基酸残基作为模体的长度,并且每类亚类搜索5个模体类数,统计每条酶序列。   我们还选取PROSITE搜索得到功能模体[5]。本文??PS_scan模体搜索工具[6]用Perl语言编译实现。用来搜索水解酶的亚类的蛋白质序列中出现的模体。对于每一条酶序列来说,记录模体在序列中出现的频数。把PROSITE搜索得到的5种模体,再加上由MEME软件搜索得到的统计模体,水解酶共得到30个模体频数值。   1.3 主成分分析   主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到发展。主成分分析是一种通过降维的方法把多个变量化成几个主成分的统计分析方法。这些主成分可以有效地反映原始向量的绝大部分信息。   本文以氨基酸组分、氨基酸紧邻组分、预测的二级结构、低频功率谱密度值和MEME模体及功能模体频数组成向量来表示序列信息,将468维向量利用主成分分析的方法优选出贡献率较高的20维向量特征。因此,通过该方法每一条酶序列将由20维向量来表示。   1.4 支持向量机算法   支持向量机[4](SVM)是一种新型分类预测方法。SVM的基本思想是将把输入数据通过非线性映射映射到一个高维的空间,然后在找到最优超平面,最终超

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档