网站大量收购独家精品文档,联系QQ:2885784924

第二章化学计量学概述.ppt

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
定量构效关系研究: 化学结构描述符 :化学结构数字化 定量构效关系建模 :建立模型 现代最优化方法 - 搜索全局最优解  模拟退火法  遗传算法  人工神经网络 蚁群算法 粒子群算法 遗传算法(Genetic Algorithm,GA) 达尔文进化论思想,适者生存 模拟生物的自然进化过程进行最优解搜索。 自然进化的特征在20世纪60年代得到美国Michigan大学的John Holland极大兴趣,他和他的学生们吸收了自然进化的思想,提出机器学习的新算法,Holland将其取名为遗传算法。 1975年,Holland出版了颇有影响的专著Adaptation in Natural and Artificial Systems, 之后,遗传算法才逐渐被人们所知。 遗传算法基本思想 生物遗传基本单元 个体 染色体(基因) 种群 繁殖过程 进化规则:优胜劣汰 遗传算法基本思想 个体编码:染色体 -- 群体生成 迭代运算:3种进化 适应性值评估 遗传算法由六个基本的操作组成: 1)编码:根据要解决问题的特征,将问题的解在其解空间中表示成遗传空间的基因型串结构数据(染色体)。 2)初始群体的生成:随机产生N个初始串结构数据,每个串结构数据称为一个个体,N个个体构成了一个群体。 3)适应性值评估检测:适应性函数表明个体或解的优劣性。 4)选择:目的是为了从当前群体中选出优良的个体,使它们有机会作为父代为下一代繁殖子孙。 5)交叉:最主要的遗传操作。通过交叉换操作可以得到新一代个体,新个体组合了其父辈个体的特性。交叉换体现了信息交换的思想。随机产生交叉。 6)变异:首先在群体中随机选择一个个体,对于选中的个体以一定的概率随机地改变串结构数据中某个串的值。 随机性:保证不陷入局部最优 遗传算法实例 154种血脑屏障穿透化合物,利用遗传算法从154种分子结构描述符中选择有限数目的描述符,建立这些化合物结构与血脑屏障穿透能力之间的关系,本项工作的关键就是变量选择(即描述符选择)。 解题难点 变量优劣评价方法 154个样本变量组与指标建模,考察模型好坏。 变量选择方案 穷举:变量组合数目及其庞大, ,其中, 继续计算out of memory。无法计算。 单因素轮换:单变量最优-加入第二变量-…-最后,从中选择最优结果,154+153+…+1=11935,贪婪算法,局部最优 遗传算法思路 随机安排初值 三种进化机制优化变量 进化过程随机性避免落入局部最优 1)二进制编码:用154位的二进制串来表示变量,即表示154个结构描述符,如果串中某位为0表示对应的变量没有被选择,反之为1就是选择了该变量。 2)适应性函数FIT :用选择的变量代表化合物结构,用多元线性回归方法MLR建立变量与血脑屏障穿透能力之间的构效关系模型,利用去一交互检验法LOO计算相关系数Q。 式中的n是化合物数目,k为所选变量个数。 FIT越大越好。 3)群体大小为500,进化次数,即迭代次数定为5000次。 4)遗传算法计算- 随机性 初始二进制编码为随机产生 使用轮赌方式进行选择,交叉和变异发生的点位都随机产生,交叉时,将双亲二进制串从随机产生的交叉点向后的所有位进行交叉,变异时每次只是对随机产生的点进行变异。交叉和变异对进化过程影响非常大,所以对它们加以限制,即并非每次都发生交叉和变异,而是用概率来进行控制,交叉概率为0.6,变异概率为0.2。 赌轮方式选择(根据FIT数值计算概率) 选择4个个体 根据FIT计算概率 绘制赌轮0-1(0%-100%) 随机产生一个数(0-1之间) 确定选中的个体,进入配对库 从配对库中随机配对,进行交叉 交叉 变异 5)对这组数据进行计算后,最优结果选择了6个变量,得到的构效关系模型如下: LogBB=0.120-0.0016×[50]+0.0014×[69]-0.0011×128]+0.0057×146]-0.0108×[147] +0.0395×[152] 遗传算法本质 提供一个最优解搜索策略 很多操作参数需选择和优化 随机性 三个优化方式是核心 人工神经网络(Atificial Neurial Network,ANN) 1943年,Warren McCulloch和Walter Pitts根据已知的神经细胞生物过程原理,构造了人类历史上第一次的人工神经元,后来,人们称它为M-P模型。 各种人工神经网络:感知机、自适应线性神经网络、Hopfield网络模型、Boltzman机、反向误差传播训练算法等 非线性关系 生物神经元 组成:细胞体、树突和轴突 树突:接受外界信号 轴突:向其他神经元传递信息 细胞体:处理信号 生物神经系统 人的神经系统10

文档评论(0)

金不换 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档