- 46
- 0
- 约13.27万字
- 约 122页
- 2019-01-23 发布于上海
- 举报
蛋白质相互作用及其结合面热点残基的预测方法研究生物信息学专业论文
摘要摘要
摘要
摘要
随着人类基因组和其它物种基因组序列测定计划的顺利完成,生物学的研 究从基因组时代步入后基因组时代。作为后基因组时代的重要研究领域之一的 以蛋白质问相互作用研究为中心发展起来的蛋白质组学已经成为当今生命科学 研究的热点和前沿领域。研究细胞内所有蛋白质的相互作用即相互作用组,分 析各种蛋白质复合物的组成及其作用方式对于我们理解生物体的复杂运行机制 至关重要。
在过去的几年时间里,研究人员从计算角度出发,提出了很多的生物信息 学方法来研究蛋白质相互作用。在这些方法之中,基于蛋白质序列的预测方法 得到了极大的关注。这类方法不需要先验知识,可以广泛地用于蛋白质相互作 用的研究之中。同时,蛋白质序列的测定速度远远大于蛋白质结构的实验鉴定 速度。因此,利用蛋白质的序列信息来预测蛋白质之间的相互作用是一种非常 理想的计算方法。本文从蛋白质序列出发,利用支持向量机和集成学习等机器 学习方法来预测蛋白质相互作用。此外,我们还研究了对保持蛋白质的功能和 蛋白质复合物结构的稳定性起着关键作用的热点残基。全文的主要工作概括如 下:
1.提出了一种基于氨基酸序列自相关描述符与旋转森林的蛋白质相互作 用预测方法。自相关描述符刻画了在蛋白质序列上相隔一定距离的两个残基之 间的相互作用,因此这种编码方式考虑到了氨基酸的邻域环境,可能会揭示整 个序列上与蛋白质相互作用有关的模式。我们首先把氨基酸符号序列转换成理 化属性表示的数值序列,然后利用自相关描述符把这些长度不等的蛋白质数值 序列转换为一系列长度相同的矢量。最后我们应用旋转森林预测蛋白质相互作 用。旋转森林是新近设计出的一种集成学习算法,可以同时提高集成分类器系 统中的单分类器准确性和多样性。实验结果表明,我们的方法能够有效地预测 蛋白质相互作用,在酵母和幽门螺杆菌数据集上均取得了理想的识别效果。
2.提出了一种基于氨基酸序列分段局部描述符与支持向量机的蛋白质相 互作用预测方法。蛋白质相互作用的一个重要特征是相互作用经常发生在序列 上的间断区域,在这些区域中,那些序列上相距较远的残基通过蛋白质的折叠 从而在空间上相距很近。基于氨基酸序列分段局部描述符考虑到了这种序列上 相距较远残基之间的相互作用关系。我们首先将蛋白质序列划分为长度和组成 可变的十个局部序列片段,然后再通过局部描述符来编码每一个局部序列片段。 所以这种方法可以捕获多个相互重叠的序列上连续和间断的结合模式。在基于
摘要这种编码策略的支持向量机预测模型上的实验结果表明我们的方法能有效提高
摘要
这种编码策略的支持向量机预测模型上的实验结果表明我们的方法能有效提高 蛋白质相互作用的预测结果。
3.构建了一个元学习方法模型来预测蛋白质相互作用。在我们上述提出的 两种特征编码方法基础上,我们又根据相关的研究报道,选择了四种性能良好 的编码方法。然后通过这些不同的特征编码方法结合支持向量机建立了六种基 于蛋白质序列的相互作用预测单分类器模型。在这些性能优异的单分类器模型 基础上,我们构建了基于元学习方法的蛋白质相互作用预测集成学习系统。结 果表明元学习方法模型能够使预测性能获得较大的提升。此外,我们的模型在 跨物种数据集上也表现出了良好的性能。
4.提出了一种基于氨基酸溶剂可及性和突出指数的相互作用结合面热点 残基预测方法。在应用计算方法来研究蛋白质相互作用结合面热点残基时,如 何选择有效的生物特征是需要解决的关键问题。我们首先从蛋白质序列和结构 出发,提取了一系列与热点残基可能相关的生物特征。然后通过特征选择,构 建了九个基于单一特征的支持向量机分类模型。最后,为了进一步提高热点残 基预测的精度,我们使用了简单的多数投票表决法来对这九个模型的输出进行 了集成决策处理。我们的研究表明氨基酸残基的溶剂可及性和突出指数是热点 残基预测中的主要判别特征。在这里,我们是首次应用氨基酸残基的突出指数 来对热点残基进行预测。实验结果证实了我们的方法能更加有效地对热点残基 进行分类,在预测精度上有着显著性的提高。
关键词:蛋白质相互作用蛋白质序列集成学习旋转森林支持向量机自相关 描述符分段局部描述符热点残基突出指数溶剂可及性
ABSTRACTWith
ABSTRACT
With the complement of the sequencing human and other species genome,the study of biology has been gradually transferred from the genomics era to the post-genomics era.As one of the most important field of post。genomics era, proteomics develop
您可能关注的文档
- spect与msct评价lnme致兔高血压性肾损伤的实验研究临床医学;影像医学与核医学专业论文.docx
- 城市整修与再生中城市景观体系创造与评价尺度研究设计艺术学专业论文.docx
- 藏族护身符研究藏学专业论文.docx
- x公司内部控制缺陷披露对企业财务绩效的影响研究会计专业论文.docx
- 北京市老龄化趋势下养老资源合理分配的仿真研究管理科学与工程专业论文.docx
- 超声烷基化改性大豆分离蛋白及其在奶茶中的应用研究食品科学与工程专业论文.docx
- xw港区二期工程项目可行性研究项目管理专业论文.docx
- 非晶硒压致多形态转变的实验研究材料学专业论文.docx
- 一种五自由度机械手控制系统的设计与实现电子与通信工程专业论文.docx
- cu2o膨润土复合材料的制备及其光催化性能的研究化学工艺专业论文.docx
- 电力客户细分及增值服务系统研究电气工程专业论文.docx
- 迈向市场经济的货币政策选择政治经济学专业论文.docx
- 低排放工况下超超临界锅炉对供电煤耗影响的研究电气工程专业论文.docx
- 地域文化与对外汉语教学——以黑龙江为例汉语国际教育专业论文.docx
- 声辐射力弹性成像技术在乳腺肿物良恶性鉴别诊断中的应用外科学专业论文.docx
- 多模态影像融合导航配准速度及配准精准性的实验及初步临床研究影像医学与核医学专业论文.docx
- 苯加氢制环己烯动态模拟与故障分析化学工程专业论文.docx
- 低压电力线ofdm通信技术的研究电子科学与技术专业论文.docx
- 体育课程运动技能论体育人文社会学专业论文.docx
- 串列式圆柱形槽墩群附近流场的数值模拟与分析水力学及河流动力学专业论文.docx
原创力文档

文档评论(0)