基于监督学习的蛋白质复合物识别算法研究.pdfVIP

基于监督学习的蛋白质复合物识别算法研究.pdf

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

摘要

基于监督学习的蛋白质复合物识别算法研究

蛋白质是生命活动的重要物质基础,也是生命活动的执行者和调控者。少数

蛋白质可以在生物体中单独执行特定功能,大部分蛋白质通过与其他蛋白质之间

的相互作用以复合物的形式完成其特定功能。因此,精确高效地识别蛋白质复合

物对于揭示细胞组织原理和功能机制具有重要意义,且对复杂疾病的诊断与靶向

治疗具有一定的指导作用。本文基于生物信息学理论与机器学习算法,对蛋白质

相互作用网络中蛋白质复合物的识别问题进行了研究。

目前蛋白质复合物的识别方法可分为实验方法和计算方法,其中实验方法所

需的时间成本和经济成本较高,很难满足大规模应用的需求,因此基于计算方法

的复合物识别算法研究逐渐受到科研人员的广泛关注。根据算法所使用的核心思

想不同,现有算法可大致分为四类:基于团和密度子图法、基于模型法、基于种

子延伸法和基于监督学习法。这些方法能够在一定程度上识别蛋白质复合物,但

仍存在不足:未对存在噪声的蛋白质相互作用网络中的相互作用边赋予权重、未

考虑真实复合物本身的特性和复合物在网络中的结构信息、在复合物搜索过程中

忽略了搜索效率的问题。

针对以上不足,本文提出了基于监督学习的蛋白质复合物识别算法(Protein

ComplexesRecognitionAlgorithmBasedonSupervisedLearning,CRSL),该算法

集成了基于监督学习的复合物识别方法和基于结构信息识别方法的核心思想,改

善了影响算法效率的因素。首先,CRSL算法基于生物信息和拓扑结构信息对蛋

白质相互作用边赋予权重,构建带有权重的蛋白质相互作用网络。然后,根据蛋

白质复合物在网络中的特性,构建特征数量更少、覆盖样本信息量更多的特征矩

阵,并将其用于监督学习模型的训练。接下来,使用训练后的监督模型与带有惩

罚项的结构函数对当前的复合物子图能成为真实复合物的可能性打出评分,依据

评分指导在网络中搜索复合物的过程,并在该过程引入禁忌表来避免重复搜索。

最后,对识别出的复合物按照设定阈值进行裁剪和合并。

为验证CRSL算法中特征矩阵构建的有效性,本文设计实验将CRSL算法的

特征与其他算法的特征进行性能对比,结果表明CRSL算法的特征矩阵对复合物

I

摘要

的识别精度更高。为验证CRSL算法对监督学习模型选择的合理性,本文选取了

监督学习中广泛使用的支持向量机、K-最邻近和随机森林三种模型进行对比实

验,实验结果表明随机森林模型在现有的特征矩阵下具有更高的识别精度与更强

的稳定性。

在与其他六种蛋白质复合物识别算法的对比实验中,结果表明CRSL算法识

别出的复合物与真实复合物的匹配率更高,该算法较其他算法相比具有更优越的

性能,对蛋白质复合物识别算法的研究有积极的推动作用。此外,CRSL算法的

识别方法对其他类似的复杂网络中社区结构的识别问题有一定的拓展应用意义,

这将是我们未来展开研究的重点方向。

关键词:

蛋白质复合物,蛋白质相互作用网络,监督学习,复杂网络

II

Abstract

Abstract

ResearchonProteinComplexRecognitionAlgorithmBasedon

SupervisedLearning

Proteinistheimportantmaterialbasisoflifeactivities,andisalsotheexecutor

andregulatoroflifeactivities.Afewproteins

您可能关注的文档

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档