支持向量机算法用于拮抗药化合物活性识别的研究.pdfVIP

下载本文档

5
0
约4.05千字
约 2页
2017-08-15 发布于安徽
举报

支持向量机算法用于拮抗药化合物活性识别的研究.pdf

F．16 支持向量机算法用于拮抗药化合物活性识别研究陆文聪刘亮陈念贻 (上海大学化学系计算机化学研究室，上海，200436) 有机分子的定量结构一活性关系是分子和药物设计的重要手段。一般用线性回归方法总结各种量子化学、结构化学参数和分子生物活性的关系。但当训练集各分子间结构相差较大时·上述关系有时呈现强非线性。不少作者采用人工神经网络或非线性映照方法作数据处理，如Bienfait将自组织人工投影…，都取得相当的成果。如所周知：对于小样本、多变量的训练集，人工神经网络会产生较严重的过拟合(over丘tci嘲问题．即拟台结果好而预报效果差的问题．而分子和药物设计中由于训练样本不易取得，经常是用小样本、多因子训练集。如何降低误报率，提高分子和药物设计效果，是一个很现实的研究课题。最近，已有个别作者试用新发展的支持向量机算法于药物设计pJ，为解决这一问题提供一条新途径。传统的统计预报方法都以概率论中的大数定理为基础．大数定律认为：训练集数目极大时，拟合建模的结果才能完全反映真实规律。但实际问题又不可能取得无限多个样本．传统的统计数学假定：可以用经验风险最小，即拟合的最b--乘法误差为建模的判据．但这一假定在理论上并无充分根据，并不能保证所建的数学模型过拟合最小。为解决统计预报中如何使过拟合最小的问题。以Vapnik为代表的数学家作了长期系统的理论研究，提出了有别于传统统计数学的“统计学习理论”“1，近年来又根据这一理论提出了新的算法一 vector 支持向量机(supportmachine)算法∽应用于人脸和语音识别效果良好，现已开始引起国际计算机学界的重视，但在计算化学领域尚少有应用。本工作以一个复杂分子集合的数据挖掘为例，考察 SVM算法在分子和药物设计中应用的实际效果。经模式识别分析，该样本集的数据结构为包容型【6j．考虑到SVM算法以升维后线性分区为基础，遂以最佳投影方向删相垂直的方向将特征空间划分为二个子空间，使数据转为偏置型，以利数据集的升维分类。模式识别投影还表明：划分为二个子空间后，两个子数据文件用Fisher法或KNN法处理结果较原数据集显著改善。据此，我们将原数据文件的数据代表点作坐标变换，组成两个子数据文件后再用模式识别方法处理。 Fisher法和KNN法处理结果：子数据文件l用模式识别特征筛选可降至四维，合乎模式识别对样本数和维数比例的计算要求．子数据文件2可降至三维，亦合乎要求。可看出Fisher法子空间投影的规律性比人工神经网络ReNdeR投影好，但用留一法测试有误报．表1SVM、Ⅺ州和Fisher法的留一法误报样本数 SVM算法处理结果：子数据文件l留一法处理结果，误报样本数为2，予数据文件2留一法处理结据为：．245．向量，由此得到化合物生物活性的判据之一为： f(x)-∑a；y，K(x,z。)+岛)0 f=l 此处b『．．2．2545，a；为支持向量对应的非零系数(由SVM算法决定)，Y，为支持向量的输出值。物生物活性的判据之二为： ^G)=∑口?咒K(x,z』)十b：)0 I=l 此处6，一1．6539。对于未知样本，同时符合上述两个判据者则预报为具有高生物活性。关键词：支持向量机算法，QSAR，(分子移药物设计。 ‘夭参考文献： resolution to and maps QSARanalysis，J ofhigh self-organizingretrosynthetic I．B．Bienfait：Applications Chem．Inf．Comput．Sci．，1994，34，890-898

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

支持向量机算法用于拮抗药化合物活性识别的研究.pdfVIP