- 52
- 0
- 约20.25万字
- 约 131页
- 2021-02-04 发布于江西
- 举报
摘 要
摘 要
蛋白质的天然态构象中,残基与残基之间的接触信息包含了非常丰富的蛋白
质结构信息。随着蛋白质序列数据库的积累、蛋白质残基共进化算法的进步、以及
机器学习和深度学习算法的发展,蛋白质残基接触预测逐渐成为预测蛋白质三维
结构的重要手段之一。利用蛋白质残基接触预测,可以大大降低预测蛋白质三维
结构的复杂度,降低三维结构的搜索空间,提高蛋白质结构预测的效率与准确率。
目前,残基接触预测算法大都将蛋白质的共进化矩阵视为图像,再使用图像
处理领域中成熟的算法或神经网络对蛋白质残基接触矩阵进行预测,都取得了不
错的成绩。但这些算法中往往没有充分利用到我们已知的生物学先验知识。如何
将生物学中积累得到的一些规律性知识有效地结合到蛋白质残基接触预测算法中,
以提高算法预测效率与准确性,成为这一领域未来发展的一个重要方向。
本文提出了 与 两种算法,分别针对蛋白质中 残基间的
2
接触与一般性的残基接触进行预测。由于蛋白质中 残基间接触在接触矩阵中一般
表现为条带状信号, 使用了图像处理中的脊检测算法,有针对性地对条带状
2
的信号进行提取,再利用随机森林算法构建预测模型。从而在高噪声的数据中,更有
效地对 残基接触进行预测,在当前公认的数据集 与
数据集中得到了比目前最优算法 更好的预测准确性。
算法进一步对一般性的残基间接触进行预测。针对蛋白质接触的稀疏性,本文在
算法中引入了行标准化与列标准化两种操作,将蛋白质残基接触的
稀疏性限制整合入深度学习框架内,并带来了性能的提升。 算法也
不再局限于图像处理领域中常用的固定架构,而是利用自动化神经网络架构搜索
技术寻找更适合于蛋白质残基接触预测任务的网络架构。通过将
算法推广到不同残基接触阈值,可以得到一系列蛋白质残基间的接触约束。我们
在此基础上设计了基于梯度下降的 算法对蛋白质的结构进行预测,并获得
与当前一流算法如 准确性相当的蛋白质结构预测性能。
总体而言,我们提出的 算法通过脊检测归纳总结了噪音接触图中的区
2
域性信号,提高了模型准确性。 则通过引入生物学积累的稀疏性限
制,并探索新的网络结构提高了残基接触预测准确性。 在上述基础上,利
用不同接触阈值下的接触信息快速有效地搭建蛋白质的大致结构。
关键词:蛋白质残基接触预测;蛋白质结构预测;深度学习;脊检测;自动化机器
学习
目 录
目 录
第1 章 前言
蛋白质结构预测
同源建模法
穿线法
从头预测法
蛋白质残基接触预测
蛋白质残基接触矩阵的基本特性
蛋白质残基接触预测的研究现状
蛋白质 残基接触预测
论文结构
第2 章 方法与技术
集成学习与随机森林
脊检测
深度学习与卷积神经网络
卷积神经网络
残差神经网络
实例标准化
自动化机器学习
神经网络架构搜索
第3 章 蛋白质 - 残基接触预测的研究
引言
数据集与模型
训练集与测试集
模型结构简介
特征及标签提取
性能评价指标
结果与讨论
窗口大小及正 负样本比例优化
特征选择
窗口形状优化
目 录
多阶段随机森林模
原创力文档

文档评论(0)