先进含能材料高通量虚拟筛选系统.docx

下载文档

0
0
约1.21万字
约 22页
2024-04-25 发布于湖南
举报
版权申诉
保障服务

先进含能材料高通量虚拟筛选系统.docx

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一、

引言

含能材料是一类能够在一定外界刺激下，通过剧烈氧化还原反应释放出巨大能量的特殊反应性物质。自2000多年前中国发明黑火药以来，含能材料为人类的进步和繁荣做出了重大贡献。先进含能材料的能量、感度和热稳定性是最受关注的三个性能。然而，能量、感度和热稳定性之间始终存在着相互矛盾和制约的关系。一般来说，含能材料的高能量总是伴随着机械感度升高和热稳定性降低。因此，发展兼具高能量、低感度和良好热稳定性的新型含能材料仍然是一个巨大挑战。

为了指导含能材料的理论设计，人们已经发展出多种经验公式，如用于预测爆轰特性的Kamlet-Jacobs公式和用于预测机械感度的硝基电荷方法等。然而，这些经验公式很少能用于实验合成前的含能材料的大规模预筛选，原因是该类公式通常需要进行较为耗时的量子化学计算，而且其泛化能力也难以被确定。长期以来，新型含能材料的发现在很大程度上依赖于科学直觉及反复试错的过程，这种研发模式存在效率低、不确定性高等问题。

随着大数据时代的到来，含能材料的研究范式发生了深刻变化。与经验模型相比，机器学习模型通常在准确性、泛化性和处理非线性问题的能力方面表现出优势，因此被广泛应用于材料科学的各个领域。在此，本文展示了一种机器学习辅助的高通量虚拟筛选（HTVS）系统，用于加速发现具有良好能量与安全性平衡的新型含能材料。该HTVS系统将机器学习模型与高通量分子生成相结合，从25112个生成分子中快速筛选出性能优良的目标分子。筛选出的化合物能够表现出类石墨层状晶体堆积结构，这种特定的晶体堆积模式通常表现出更好的能量与安全平衡特性。经过对合成可行性的进一步评估，通过三步反应合成得到了一种性能较好的[5,6]稠杂环骨架基含能材料——7,8-二硝基吡唑并[1,5-a][1,3,5]三嗪-2,4-二胺（本文称为ICM-104）。性能研究表明，含能材料ICM-104具有良好的综合性能，包括高能量、低感度和良好的热稳定性等。上述研究初步证明了所提出的HTVS系统的有效性以及机器学习在设计高性能含能材料方面的巨大潜力。

二、

方法

（一）数据准备与增强

从过去几十年的文献中收集了1000多条含能材料数据，用于训练属性回归模型。该数据集包含具有多种结构的分子，涵盖脂肪族、芳香族、单环和多环化合物（有关详细样本和数据源请参见附录A中的数据集1）。附录A中的图S1提供了有关数据集的更多特征，如数据分布。在进行模型训练时，将所有数据以80∶20的比例随机分为训练数据和测试数据。将训练数据进一步分为训练集和验证集，用于进行五折交叉验证和调整超参数。五折交叉验证是指将验证集划分为5组，每组可用于一次验证，而其余4组用作训练集。最终测试分数是根据在训练过程中未使用的测试数据集计算而得。

为了训练分类模型，本研究从剑桥晶体学数据中心（CCDC）获取了365个被标记为“0”（表示不具有类石墨层状晶体堆积结构）的样本和22个被标记为“1”（表示具有类石墨层状晶体堆积结构）的样本（见附录A中的数据集2）。显然，现有数据量太小，不适合应用深度学习方法。因此，使用简化分子线性输入规范（SMILES）的枚举技巧进行数据增强，该技巧可以生成多个代表相同分子的不同SMILES字符串。SMILES枚举是一种用于分子深度学习的新型数据增强技术。标记为“0”和“1”的SMILES样本被分别放大了10倍和30倍。数据增强后，总样本量扩大到4000多个。在训练卷积神经网络（CNN）和长短期记忆（LSTM）模型时，保留400个样本作为测试集来评估模型的性能。

（二）特征与模型

使用RDKit库提取了包括自定义描述符和电拓扑指纹在内的特征（即分子描述符）。属性预测模型通过Scikit-learn包中的核岭回归（KRR）算法进行训练。在KRR算法中，预测值（y*）可以表示为，给定一个核函数（k）[公式（1）]条件下，新样本（x*）与训练样本（x）内积的加权平均（αi）。因此，学习过程中需要使用公式（2）计算系数矩阵（α，αi为α的第i个元素），式中X、Y、λ和I分别为样本矩阵、标签矩阵、正则化参数和单位矩阵。使用网格搜索方法和五折交叉验证调整包括核函数在内的超参数。以决定系数R2?[公式（3），表示标签平均值]作为模型二次拟合标准。同时采用平均绝对误差[MAE，公式（4）]评估模型性能。上述公式中，i和N分别表示第i个样本和总样本数。

分类模型中使用的CNN和LSTM是从Pytorch库中获取的。为了准备输入，从完整数据集包含的全部SMILES提取字典。字典的详细内容如下：['N','c','1','n','(',')','[','+',']','=','O','-','o','2','#','C','3','H','/','\\','4','5',