第12章结构信息与QSAR.ppt

下载文档 降价啦

8
0
约8.9千字
约 117页
2018-01-28 发布于江苏
举报
版权申诉
保障服务

第12章结构信息与QSAR.ppt

1、本文档共117页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(5) 描述符组合将原始描述符进行某种组合以产生新的描述符。例如, 将LUMO与HOMO组合成二者之差时, 通常是考虑到电子激发能对分类的影响。近年来，利用遗传算法（GA）对描述符进行重组，是一种比较有效的手段。 4. 活性指标活性指标和描述符是QSAR的两个不可分割的组成部分。生物活性通常定义为产生预定生物效应所需的剂量或浓度C的倒数。常用剂量或浓度有: （1）半数有效剂量ED50 （2）半数致死剂量LD50 （3）半数有效浓度EC50 （4）半数致死浓度LC50 5. 相似性量度模式识别的重要功能之一是分类。研究样本分类属于Q型模式，研究描述符分类属于R型模式，通常对前者用得较多。无论哪种分类，都是依据“物以类聚”即相似者相聚的原理。然而，怎样才算相似？需要从数学上给出某种相似性量度。相似性量度有多种定义，常用的有 (1) 相似矩阵从几何意义看, 每个样本相当于n维空间中一个模式矢量。样本k与l 越相似，其模式矢量在模式空间中的夹角αkl越小，夹角余弦越大。所以，夹角余弦可以作为样本相似性的一种指标: 夹角余弦是用原始数据定义的。若改用与样本平均值的差值来定义, 就是相似系数rkl（k=1，2，…, m；l=1，2，…, m）: (2) 协方差矩阵对于原始数据矩阵X，定义描述符k与l之间的相似程度为协方差ckl（行标处的圆点表示该平均值由列标指定的列上对所有行求出）: 所有“描述符对”的协方差，汇集成协方差矩阵C (3) 相关矩阵如果先将原始数据矩阵X标准化，再求其协方差，就得到标准协方差rkl，其值在（-1)到（+1）之间，也称相关系数；组成的矩阵称为相关矩阵。rkl越近与1，表明描述符k与l 越相似。 (4) 描述符之间的相关分析可以推广到目标值（例如药物分子活性）与描述符之间的相关分析： i为样本号（i=1，2，…, m），ti是第i个样本的目标值，xij是第i个样本的第j个描述符。r=+1表明第i个样本的目标值与该样本第j个描述符正相关，r=-1表明第i个样本的目标值与该样本第j个描述符负相关。绝大多数情况下，r的绝对值介于0和1之间。 (5) 距离相似性还可用模式空间中的“距离”来量度, 这是3D空间距离在高维空间的拓展。这种“距离”的定义很多，如Minkoski距离、Haming距离、Tanimoto距离等。 6. 监督模式识别监督模式识别需要有一训练集。对于两类的情况，训练集中有一些样本属于A类，另一些属于B类。将此信息输入计算机，经训练后, 可对未知样本进行分类。监督模式识别的一般步骤: （1）用一组已知类别的样本作为训练集，对计算机进行训练而建立数学模型; （2）用另一组已知类别的样本作为测试集来检验所得数学模型的识别率。测试集的分类对于研究者是已知的, 却不输入计算机；（3）若识别率符合要求, 就可以对预测集进行预测。预测集的活性对于研究者和计算机都是未知的，预测结果正确与否只能由实验去检验。有些研究并不专门使用测试集，而是直接对预测集进行预测，再用实验检验预测结果。在这种情况下，测试集和预测集是同义词。监督模式识别方法之一：主成分分析主成分分析是一种简化数据结构、突出主要矛盾的多元统计方法。它利用某些数学方法将原有特征组合成相互正交的新特征—-主成分，以突出反映事物的规律性。它既是一种模式识别方法,也是一种数据预处理手段, 用主成份作为新特征进行模式识别，有时分类结果会更好。基本步骤: (1) 写出原始数据矩阵X: (2) 对X作标准化变换，构成标准化数据矩阵Z : (3) 求矩阵Z的协方差矩阵Σ，其矩阵元为 (4) 解矩阵Σ 的本征方程 |Σ -λI| = 0, 求出所有n个本征值及对应的n个本征向量(这与求解HMO久期方程作法相同)。n是描述符的数目。将非零本征值由大到小依次排列, 本征向量也相应排列。 (5) 从这n个本征值中选出前r个本征值(r ? n,只要这r个本征值之和占到n个本征值之和的85%以上即可), 并选出r个对应的本征向量作为列向量, 构成n行r列的系数矩阵D。 (6)

您可能关注的文档

文档评论（0）

djdjix + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第12章结构信息与QSAR.ppt