应用R进行QSAR的尝试-统计之都.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用R进行QSAR的尝试-统计之都

应用R进行QSAR的尝试 ---以PAHs在根际消解效果的QSAR分析为例 关于QSAR的背景 定量构效关系(Quantitative Structure-Activity Relationship,简称QSAR)是指利用理论计算和统计分析工具来研究系列化合物结构与其效应之间的定量关系,即借助结构参数构建数学模型来描述化合物结构与活性之间的关系。 环境科学中进行QSAR的目的 由于测定化合物的各种毒性需要花费大量的人力、物力和财力,人们不可能对众多化学品进行逐一测定 而利用QSAR 模型即可对化学品的生物毒性和环境行为进行预测,并筛选出具有潜在危害的化学品,这在环境科学研究中无疑是一件极具意义的工作 R与QSAR 统计分析工具 QSAR中需要的数学方法 R中的各种包提供几乎所有QSAR研究需要的数学方法 如果将这些方法集合为一个QSAR专用的包,无论对R的发展还是QSAR的应用都是有利的 QSAR过程与R R中包含QSAR数学方法的包 R是QSAR的有力工具,但是…… 应用R进行QSAR的一个尝试 以R进行多环芳烃(PAHs)在植物根际消解效果的QSAR分析为例子来说明R再QSAR中的应用。 为什么研究多环芳烃(PAHs) 数据库的建立 活性参数是PAHs在植物根际消解效果,采用meta-analysis中常用的效应值(effect sizes, d)表示。d=ln(E/C) 分子结构参数通过Dragon 5(Talanet)计算得到965个结构参数,包括拓扑参数和理化参数。 参数的筛选 用主观选择对结构参数进行筛选,去掉所有值为恒量的参数,然后计算余下参数的相关系数矩阵,去掉相关系数大于等于0.95的两个参数中的一个。 采用R极大提高筛选效率 R中结构参数的主观筛选(去除恒量) mol.structure-read.csv(mol_indeces.csv, +sep=,,header=TRUE, dec=.) dim.mol-dim(mol.structure) a-dim.mol[1] n-0 for(k in 1:(dim.mol[2]-n)) {if (mol.structure[1,k]==mol.structure[a,k]) + { mol.structure-mol.structure[,-k]; +n-n+1; +k-k-1}} write.table(mol.structure, file=molstruc1.csv, sep=,) R中结构参数的主观筛选(去除高相关性参数) cor.matrix-cor(mol.structure) dim.cor-dim(cor.matrix) m-0 for(i in 1:(dim.cor[1]-1)){ for(j in (i+1):(dim.cor[2])){ if (cor.matrix[i,j]=0.95){ +mol.structure-mol.structure[,-i]; +i-i+1} }} dim(mol.structure) write.table(cor.matrix,file=matrix.csv, sep=,) write.table(mol.structure,file=molstruc2.csv, sep=,) PLS构建模型 # modeling QSAR by PLS library(pls) lnR-read.table(lnR.csv,header=TRUE, sep=,) data-cbind(lnR,mol.structure) QSAR-plsr(lnR~MLOGP2+MSD+Se+ZM1+X0Χv+ +X6ΧCH+Eig1Z.1+TI2+MWC08+piPC08 ++GGI2+AEig1Z+VRD2+IDDM+HDcpx+IC0+CIC0+ +BIC0+TIC1+SIC1+BIC1+CIC2,data=data, +method=simpls,model=TRUE) 模型验证 #cross-validation the QSAR model crossval-crossval(QSAR, segments = 40, + segment.type = c(random)) RMSEP-RMSEP(QSAR) R2-R2(QSAR) plot(crossval) plot(RMSEP) plot(R2) plot(QSAR, ncomp=15) RMSE和R2 优化预测模型 用于预测和预报 #predict unstudied compound perylene-read.table(‘perylene.csv’, header=TRUE, sep=’,’) new.mol-predic

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档