- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于深度学习的蛋白质翻译后修饰位点预测相关问题研究
摘要
蛋白质翻译后修饰(post-translationalmodification,PTM)是指在mRNA翻译后
形成蛋白质过程中的一种化学修饰。PTM是增加生物多样性的关键机制,几乎影响
正常细胞生物学和发病机制的方方面面,包括细胞分化,蛋白质降解,信号和调节
等过程都发挥着重要作用。PTM的相关问题已成为当今蛋白质组学研究中的重要课
题,对于PTM位点的全面及准确的识别是目前研究的热点与难点。
为了更有效预测蛋白质翻译后修饰位点,有效提升预测精确度,本文基于深度
学习,完成主要工作如下:
1.提出了一种新的丙二酰化预测模型Malsite-Deep。首先,采用七种特征提取
方法对蛋白质序列进行特征提取,得到原始特征空间。其次,运用欠采样NearMiss-
2方法对数据进行不平衡处理并通过门控循环单元(GatedRecurrentUnits,GRU)的
更新门和重置门选择最优特征子集,去除冗余和不相关信息。最后,将GRU层得到
的数据输入深度神经网络(Deepneuralnetworks,DNN)中对丙二酰化位点进行预测,
并利用十折交叉验证和独立测试集对模型性能进行评估。十折交叉验证表明,训练
集中AUC值达到0.99。四个独立测试集中AUC值均达到0.95以上。实验结果表明
Malsite-Deep有助于鉴定蛋白质丙二酰化位点。
2.提出了一种新的羰基化预测模型PreCar_Deep。首先,采用六种特征提取方
法对蛋白质序列进行特征提取,得到原始特征空间。其次,运用GroupLASSO最优
特征子集,去除冗余和不相关信息并通过过采样Borderline-SMOTE方法对数据进行
不平衡处理。最后,将Borderline-SMOTE得到的数据输入本文构建的深度学习框架
中对羰基化位点进行预测,并利用十折交叉验证和独立测试集对模型性能进行评估。
结果表明PreCar_Deep有助于鉴定蛋白质羰基化位点并极大降低实验成本。
3.提出了一种新的多种类型酰化位点预测模型PMPA_DeepTL。首先,通过九
种特征提取方法包括AAC,ANBPB,DDE,EBGW,CT,MMI,Hydropathyindex,
AD和BLOSUM62将蛋白质序列转化为数字信息,并对这些数字信息进行特征融合。
其次,对于本文数据正负样本严重不平衡问题利用过采样与欠采样相结合的方法
SMOTETomek将数据处理为平衡数据。最后,利用卷积神经网络对琥珀酰化位点进
行分类。通过琥珀酰化位点数据集预训练的模型,对卷积神经网络的全连接层进行
微调参数,将模型迁移到不同酰化位点数据进行分类。相比于其它预测模型,琥珀
I
酰化位点的数据集在独立测试集AUC值都达到了0.9以上,同时通过微调预训练模
型的网络,其它不同类型酰化数据集也都达到了较好的精度,表明PMPA_DeepTL
有助于鉴定蛋白质多种酰化位点。
关键词:蛋白质翻译后修饰;深度学习;迁移学习;多信息融合;不平衡算法
II
目录
1绪论1
1.1研究背景与意义1
1.2国内外研究现状2
1.3本文主要研究内容及其结构5
2蛋白质翻译后修饰位点预测的基本方法8
2.1引言8
2.2特征提取方法8
2.3不平衡处理方法15
2.4分类算法17
2.5迁移学习22
2.6评价指标22
3基于Malsite-Deep的蛋白质丙二酰化位点预测24
3.1引言24
3.2材料与方法25
3.3结果与讨论28
3.4小结35
4基于PreCar_Deep的蛋白质羰基化位点预测36
4.1引言36
文档评论(0)