- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于结构聚类的化合物熔点QSPR分析
基于结构相似性聚类的化合物熔点 QSPR 分析
周新奇,梁逸曾*
中南大学化学化工学院, 长沙, 410083
E-mail:zhouxinqi2000@163.com
摘 要:采用两种结构相似性聚类分析的方法对Robert C. Glen and Andreas Bender报道[1]
的一个结构多样性药物数据库中化合物进行筛选,一种是基于分子结构碎片相似的统计学方
法,另一种是基于分子基本骨架(MCS)相似的聚类方法。筛选出聚集在一起的化合物数据
集,采用PCR蒙特卡罗方法建立模型,训练集的拟合相关系数R为 0.9,检验集的相关系数R
在 0.8 以上,预测偏差降低到 25K。文献采用人工神经网络方法建模,所得到的相关系数都
只有 0.65 左右,预测偏差达到 40K。
关键词:熔点,QSPR,结构相似性,聚类,PCR
引言:
熔点描述的是一种化合物由固态变成液态转化温度,是晶体化合物的一种基本性质,可
以用于快速的分析物质的纯度等。但是还有很多化合物的熔点没有测出来,或者测出来的熔
点温度是一个大概的范围值[2]。在研究化合物的性质问题时,一个重要研的内容是通过化合
物的结构来计算化合物的性质。化学计量学中的QSPR被赋予了这样一种使命。这种基本的函
数表达式为:
A/P=f(molecular structure)=f(molecular descriptors)[3]
在上述的表达式中分子结构由分子描述子表示。目前应用得比较广泛的描述子有:拓扑指数
描述子,量子化学描述子,经验物理化学描述子等等。A/P 描述的是物质的生物活性或者它
的某种性质。f(.)刻画结构与性质或生物活性之间的关系。
前面很多的关于熔点与结构之间的QSPR研究一般都是针对某一种化合物,Dearden JC
等报道了用氢键供应能力、疏水常数、mol折射率、Sterimol宽度参数B2和m-取代指示变量
五个参数对42种苯胺化合物的熔点进行建模,得到比较好的结果,r=0.941,s=24.6[4]。Alan
R. Katritzky等,对443个单取代和二取代的苯化合物熔点进行QSPR研究,采用6个描述子进
行建模,其拟合系数0.8373,成功地应用于预测模型[5]。蒋明谦先生提出了同系物的线性规
律[6] [7]
之后,很多学者对同系化合物的熔点的关系也作了研究:仇明华 对烷烃同系物考虑分
子的端基效应,提出了熔点计算方法,得到的平均相对误差为2. 59 %。James S. Chickos and
Gary Nichols[8]也对一大批同系物的熔点做了研究。对于比较大型的数据,可以采用两步的
策略来进行数据挖掘:搜索出化学模式并且给出结构和性能之间的详细的关系[9]。一般采用
相似性比较的方法或者聚类的方法来分析化合物的模式。然后用所得到的化合物的模式进行
建模对未知的样本进行预测。采用相似度聚类的方法已经报道的有基于图形相似和基于指纹
图谱相似性对数据库进行虚拟筛选[10]。
1 数据和方法
-1-
1.1 数据集
化合物的结构和熔点的数据来自于Robert C. Glen and Andreas Bender的报道,在网
站[11]下载原始数据,但其中有一个数据有误,在我的实验中将其剔除。所得到的结构数据为
smiles编码,我们利用网上[12]在线结构文件转换软件将其转换成sdf文件格式,得到sdf的结
构文件以后我们将它导入ISIS/Base软件中,可以很清晰地看到分子的二维结构,它包含有
多种多样的结构 (见图一)。下载的分子结构我们有的无法将它进行转化和识别,因此将不
能够识别的分子去掉。得到 3613 个分子。
1.2 描述子
我们采用了 202 个 2D 和 3D 描述子,包括疏水常数,分子的表面积,分子的极性,量
子化学描述子等等,这些描述
文档评论(0)