- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
智能分类算法及在蛋白质相互作用预测中的应用研究
济『暂,J:学硕卜譬ft论支
摘 要
蛋白质足生命活动的主要执行者,其通过相互作用来完成生命活动,因此只有
对蛋白质进行整体,网络水平上的研究,才能真正揭示生命现象的分子机制,这就
导致了蛋白质组学的出现。蛋白质组学是研究一个细胞或生物组织在一定条件下所
有蛋白质的结构与功能,以及这些蛋白质与其他分子之间的相互作用关系。因此检
测蛋白质之问的相互作用成为蛋白质组学的重要研究课题之一。
由于传统检测蛋白质相互作片j的实验方法耗费大量的人力物力,而且具有较高
的假阳率和假阴率,因此采用计算方法对蛋白质相互作用进行预测变得越来越重
要。本文主要研究基于蛋白质的一级序列信息,利用分类算法,对蛋向质之间的相
互作用进行预测。因为蛋白质的氨基酸序列决定结构,结构决定性质,所以蛋白质
一级序列中含有的信息已经足够用来预测蛋白质相互作用,并且这种方法具有较好
的通用性,仅根据蛋白质的序列信息就可以进行预测。本文的工作主要包括以下几
个方面:
(1)提出了一种基于改进的伪氨基酸组成特征提取算法的蛋白质相互作用预
测方法。由于蛋白质的功能可能受到多种不同的氨基酸属性的影响,所以需要整合
与蛋白质相互作用相关的氨基酸性质来更加有效的表示蛋白质序列的特征。因此首
先利用基于Geary自相关函数的特征提取算法,对氨基酸属性与蛋白质相互作用的
相关性进行评价,然后根据评价结果选择相关的属性整合到基于Minkowski距离的
伪氨基酸特征提取算法中提取出特征,并使用随机森林作为分类器进行学习预测。
在幽门螺旋菌蛋白质相互作用数据上进行实验,该方法相对于传统方法取得了很好
的效果,提高了预测j下确率。
(2)提出了一种基于n.Diad特征提取算法和随机森林的蛋白质相互作用预测
方法。采用了n—diad特征提取算法从蛋白质序列中提取特征,所提取的特征中不仅
含有氨基酸的同义变异信息,还包括了蛋白质序列中间隔不同距离的氨基酸之间的
疏水作用信息。由于随机森林参数较少,泛化能力较好,因此被选作分类器进行学
习和预测。同时,由于训练数据集的质量对分类器的效果有较大的影响,我们选取
了DIP数据库中的酵母蛋白质相互作用数据作为iF集,然后基于不同的生物学原理,
V
年P能分类钎泫及lrn。蛋n赝卡n旺仃用预测中的f柚用研究
寰皇曼!!曼!!曼曼曼曼曼!曼II I l: II!曼曼!笪曼鼍
构造了四种负集,用来比较不同的负集生成方法对分类效果的影响。通过实验表明,
ScoNeg数据集综合了多种生物信息源,具有较多的生物意义,所训练出的随机森
林分类器预测效果最好。
(3)提出了一种基于Moran.PseAA特征提取算法和改进的K近邻分类器的预
测模型来预测蛋白质相互作用。蛋白质序列使用Moran.PseAA特征提取算法柬编
码,这种算法使用Moran相关函数来计算蛋白质序列的顺序信息和氨基酸的疏水作
用信息,然后采用K近邻算法作为分类器,同时根据蛋白质相互作用的特点,提出
新的距离函数来计算两个蛋白质对之间的距离。在酵母蛋白质相互作用数据上进行
实验,获得了较好的预测准确率。
(4)提出了一种基于蛋白质表面热点氨基酸性质和相互作用的蛋白质之间存
在共进化现象的预测方法。由于自然选择压力,相互作用的蛋白质在进化过程中呈
现出共进化的特征,因此提出CO.Diad特征提取算法来表示两个蛋白质之间的共进
化信息。另外,由于两个蛋白质之间发生物理相互作用所需要的结合能量是由少数
分布在蛋白质表面的热点氨基酸提供,因此在CO.Diad提出的特征中,只有包含热
点氨基酸信息的特征分量才与蛋白质相互作用相关,所以选取多表达式编程作为分
类器,在学习过程中自动提取出有效的特征分量。由于单个多表达编程分类器可能
仅提取出含有某一类热点氨基酸信息的特征,而丢失了含有其他类型热点氨基酸信
息的特征,因此我们提出了集成多表达式编程分类器,将多个多表达编程分类器整
合为一个集成分类器进行预测。在酵母蛋白质相互作用数据上进行实验,表现出较
好的分类预测效果。
关键词:蛋白质相互作用,伪氨基酸组成,随机森林,k近邻算法,多表达式编程
VI
文档评论(0)