基于深度学习的化合物诱变性和线粒体毒性预测.pdf

下载文档 降价啦

30
0
约10.03万字
约 64页
2020-09-18 发布于江苏
举报
版权申诉
保障服务

基于深度学习的化合物诱变性和线粒体毒性预测.pdf

1、本文档共64页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于深度学习的化合物诱变性和线粒体毒性预测中文摘要癌症是一类与细胞恶性增殖密切相关的疾病，长期存在于人类历史中。常见的致癌因素包括理化致癌、生活方式致癌、激素致癌、炎症致癌和辐射致癌等。其中，化学致癌随着近年来工业的高速发展和各类化学物质在人类生活中的广泛应用，成为一大值得引起高度重视的致癌因素。因此，通过各种手段以预知一些潜在致癌的化合物就成为至关重要的一类研究。化学致癌物质的实验预测和验证早在40 年前就已开始，主要方法是体外实验，但这些方法大多无法保证较高的可靠度，且在成本和通量方面受到限制。所以，基于定量构效关系，从化合物的结构信息来预测其致癌可能性就成为21 世纪之后更加热门的研究领域，但这类方法也存在两个问题，一是大多数据驱动的模型在对应评价指标方面缺乏足够好的表现，二是构建模型所采用的算法大多是传统的机器学习算法，很难使预测结果得到进一步提升。与此同时，深度学习作为一种新兴的，具有强大建模能力的方法，不仅在图像，文本，音频等领域展现出超越传统方法的标签预测和信息提取能力，在化学信息学方面也已经有各方面的应用。同时，相关研究大多局限于通用性致癌数据，但化学致癌过程大多为毒性化合物引起人体病变后所致，因此需要一些额外的思路来拓展此类工作。本论文根据已有的研究，分别从两种常见的致癌相关化学毒性——诱变性和线粒体毒性的角度，结合对应的实验数据，基于多种深度学习算法建立了高精度的分类预测模型。具体包括以下内容：论文的第一章从不同层面阐释了一些我们研究相关的背景信息和研究目的。首先介绍了癌症及其治疗的相关信息，并列出了一些常见的致癌因素，其中重点介绍了化学致癌因素，之后将从上世纪末至今化学致癌作用预测和评价的相关方法进行列举，并分析了这些方法的优势和不足。随后对毒性与致癌性的关系做了介绍，又引入了深度学习的概念并简述了其发展历程，并具体解释了一些深度学习相关的专业术语和方法，结合简单的数学模型描述了常用的深度学习框架。论文的第二章研究的是基于深度学习的Ames 试验诱变性预测。Ames 试验是一种广泛使用的生物测定法，用于评估化学物质的诱变性。由于致癌性和诱变性之间存在密切的联系，因此迫切需要建立可靠的计算机模拟方法来预测后者，以作为耗时且昂贵的体外测试的替代方法。在这部分研究中，深度学习架构—— I 深度神经网络（DNN ）、循环神经网络（RNN ）、长短时记忆网络（LSTM ）、门控循环单元（GRU ）和自编码器（autoencoder ），以及分子特征——ECFP4 、PubChem 指纹、MACCS 密钥和2D 化学描述符被用于诱变性分类模型的建立。我们利用 Hansen 等人提供的Ames 试验基准数据集，按照Kennard-Stone 算法进行数据分割。我们建立的最佳模型在验证集上以94.2 ％的准确率，97.0 ％的灵敏度，90.9 ％的特异性和88.2 ％的Kappa 分数取得了令人满意的分类性能。此外，我们还进行了亚结构分析以识别潜在的结构警报，并基于最佳模型开发了相应的网络预测系统DeepAmes 。论文的第三章研究的是基于深度学习的线粒体毒性预测。线粒体膜电位（MMP ）在遭到破坏的情况下，会引发线粒体功能障碍，而相应的DNA 损伤则有可能引起癌症。因此，我们在这部分的研究中关注线粒体毒性的预测。这里我们在网络结构层面只有DNN 模型和上一章相同，除了ECFP4 和PubChem 分子指纹以及2D 化学描述符外，我们还采用了3D 化学描述符来检验更丰富的化学信息对模型表现的影响。数据方面，Schyman 等人的工作和部分Tox21 数据被用于此工作中。由于源数据为非平衡数据集，我们在这里使用SMOTE 超采样方法来衡量数据平衡性对实验结果的影响，从10 折交叉验证和按照4 ：1 内部分割两方面进行比较。此外，由于使用传统的化学特征作为网络输入无法获得更进一步的结果，且过度依赖专家知识，我们引入了基于图网络的特征学习，来从图层面自动提取特征信息。具体使用的网络框架为图卷积网络（GCN ）和信息传递网络（MPNN ），最终均取得了较好的分类效果，其中MPNN 网络的结果非常优越，在验证集上达到了 0.9161 的AUC 值、92.25%的准确率、0.6650 的MCC