支持向量机算法用于拮抗药化合物活性识别的研究.pdfVIP

  • 5
  • 0
  • 约4.05千字
  • 约 2页
  • 2017-08-15 发布于安徽
  • 举报

支持向量机算法用于拮抗药化合物活性识别的研究.pdf

F.16 支持向量机算法用于拮抗药化合物活性识别研究 陆文聪刘亮陈念贻 (上海大学化学系计算机化学研究室,上海,200436) 有机分子的定量结构一活性关系是分子和药物设计的重要手段。一般用线性回归方法总结各种量 子化学、结构化学参数和分子生物活性的关系。但当训练集各分子间结构相差较大时·上述关系有时 呈现强非线性。不少作者采用人工神经网络或非线性映照方法作数据处理,如Bienfait将自组织人工 投影…,都取得相当的成果。如所周知:对于小样本、多变量的训练集,人工神经网络会产生较严重 的过拟合(over丘tci嘲问题.即拟台结果好而预报效果差的问题.而分子和药物设计中由于训练样本不 易取得,经常是用小样本、多因子训练集。如何降低误报率,提高分子和药物设计效果,是一个很现 实的研究课题。最近,已有个别作者试用新发展的支持向量机算法于药物设计pJ,为解决这一问题提 供一条新途径。 传统的统计预报方法都以概率论中的大数定理为基础.大数定律认为:训练集数目极大时,拟合 建模的结果才能完全反映真实规律。但实际问题又不可能取得无限多个样本.传统的统计数学假定: 可以用经验风险最小,即拟合的最b--乘法误差为建模的判据.但这一假定在理论上并无充分根据, 并不能保证所建的数学模型过拟合最小。 为解决统计预报中如何使过拟合最小的问题。以Vapnik为代表的数学家作了长期系统的理论研 究,提出了有别于传统统计数学的“统计学习理论”“1,近年来又根据这一理论提出了新的算法一 vector 支持向量机(supportmachine)算法∽应用于人脸和语音识别效果良好,现已开始引起国际计算 机学界的重视,但在计算化学领域尚少有应用。本工作以一个复杂分子集合的数据挖掘为例,考察 SVM算法在分子和药物设计中应用的实际效果。 经模式识别分析,该样本集的数据结构为包容型【6j.考虑到SVM算法以升维后线性分区为基础, 遂以最佳投影方向删相垂直的方向将特征空间划分为二个子空间,使数据转为偏置型,以利数据集的 升维分类。模式识别投影还表明:划分为二个子空间后,两个子数据文件用Fisher法或KNN法处理 结果较原数据集显著改善。据此,我们将原数据文件的数据代表点作坐标变换,组成两个子数据文件 后再用模式识别方法处理。 Fisher法和KNN法处理结果:子数据文件l用模式识别特征筛选可降至四维,合乎模式识别对样 本数和维数比例的计算要求.子数据文件2可降至三维,亦合乎要求。可看出Fisher法子空间投影的 规律性比人工神经网络ReNdeR投影好,但用留一法测试有误报. 表1SVM、Ⅺ州和Fisher法的留一法误报样本数 SVM算法处理结果:子数据文件l留一法处理结果,误报样本数为2,予数据文件2留一法处理结 据为: .245. 向量,由此得到化合物生物活性的判据之一为: f(x)-∑a;y,K(x,z。)+岛)0 f=l 此处b『..2.2545,a;为支持向量对应的非零系数(由SVM算法决定),Y,为支持向量的输出值。 物生物活性的判据之二为: ^G)=∑口?咒K(x,z』)十b:)0 I=l 此处6,一1.6539。对于未知样本,同时符合上述两个判据者则预报为具有高生物活性。 关键词:支持向量机算法,QSAR,(分子移药物设计。 ‘夭 参考文献: resolution to and maps QSARanalysis,J ofhigh self-organizingretrosynthetic I.B.Bienfait:Applications Chem.Inf.Comput.Sci.,1994,34,890-898

文档评论(0)

1亿VIP精品文档

相关文档