化合物诱变活性模糊神经网络计算机识别.pdf

化合物诱变活性模糊神经网络计算机识别.pdf

化合物诱变活性模糊神经网络计算机识别 浙江大学生物医学工程与仪器科学学院 生物医学工程系 97级研究生 李永武 导师 陆金芳叶志前 7 : .。L, 中文摘要 } 随着科学技术的快速进步,人民生活水平的不断提高。对环境 保护及人类健康日益重视,肿瘤的预防、食品的卫生、药物的检测、 农药的利用等方面因而也备受关注。这导致了对有机物的诱变括性 检测与预测及其手段和方式有更迫切提升和实现的要求。/7p 在自然界,物质的性质和其结构之间存在一定的关系(构效关 structure—activity 系,QSAR,quantitativerelationship);在一定意义 上说:物质结构决定其性质。计算机的使用已深入科研的各个角落, 用计算机识别基于QSAR基础上的化合物的诱变活性成为人们研究 对象,近十年来有许多软件出现…【2J【…,较典型的解决方案是以如 下方法进行:在将化合物分子结构以计算机能识别的编码方式14J输 入电脑然后对结构进行一定的统计处理,得出有代表意义的结构,接 着利用线性回归、模式的贝叶斯识别、专家系统、BP(backpropagation) 神经网络、遗传算法等方法【3J[[5-91来进行机器识别。模糊数学是研 究不明确的模糊现象及其概念¨…,用模糊概念界定结构片段对物质 活性的影响更符合人们识别和分类的习惯,更符合人类认识的本 质。极小极大模糊神经网络【1‘1是以超盒子的极小极大概念、隶属 度、模糊运算规则来进行学习和训练的,并用此训练得到的权值进 行预测和判断。本课题用软件来实现极小极大模糊神经网络,迸一 步构成一个能预测和判断化合物诱变活性的系统。 体课题系统有二方面内容:一为系统学习和训练,二为化合物 诱变活性的预测和判断。系统学习和训【练的过程有:样本化合物结 构的输入,我们采用KLN编码方法,把化合物以一定的结构次序进 /行编码输入计算机,我们对编码形式的分子结构进行3—10结点长度 的树形搜索,得到分子结构的子结构片段,每一化合物片段和化合 物保存在同一目录,以便后续管理;我们利用样本集片段的统计数 据进行T检验,校验片段是否具有较显著的意义,得到一些特征片 段:根据片段在样本集中出现的次数以及片段在化合物中出现的次 数和片段隶属度函数的正态数学模型,我们进行片段隶属度的计 算,从而衡量具体的片段所具有的对化合物的活性的贡献程度;把 片段和相对应的隶属度值写进数据库;然后,对特征片段根据他们 之间的互相关系数的大小进行模糊聚类,类别的数量是由一衡量互 相关的系数来控制的,从而得到样本集的化合物特征片段及其分 类。我们对每个具体的化合物,遍搜索其片段,并把之同样本集特 征片段相匹配,辅之以匹配补偿,得到具体化合物的特征片段表示, 并以隶属度值数量化,作为输入神经网络的此化合物输入值。我们 把样本集中的各个化合物输入极小极大神经网络。神经网络采用三 层结构,输入层的维数由输入的化合物样本集的特征片段类别决 定,隐含层数目为~个动态的超盒子数目,根据训练的样本集来确 定,输出为一个三类的输出,亦即化合物诱变阳性、阴性、不确定, 我们要训练的是超盒子的大小,两类的输出有两类的超盒子集,分 别表示对化合物诱变阳性、阴性两类的记忆。在学习和训练结束后, 我们把这两类的超盒子的极小极大值进行储存,这时,系统的判断 标准建立。具体的样本集的学习和训练结束。系统的第二方面(判 断和预测)过程为:对于具体的化合物输入到系统进行判断,系统 先对此化合物进行分片段,而后在已建立的样本集特征片段库里进 行匹配,从而确定此一具体化合物的输入值,输入极小极大神经网 络,神经网络根据学习和训练所得的权值集合进行判断,从而得出 此一具体化合物的诱变活性。 对此一系统在根据上述过程软件实现后,我们选取了几组化合 物的样本集来进行试验,样本化合物集c1有96个化合物,其中诱 变活性阳性化合物有65例,阴性化合物3l例,学习和训练后,再 让系统回顾性检验,正确率为93.75%,其中阳性判断率100%,阴性 判断率为8l%;样本化合物集C2有196个化合物,其中诱变活性为 阳性的化合物有139例,阴性化合物有57例,学习和训练后,回顾 ‘胜预测正确率为89

文档评论(0)

1亿VIP精品文档

相关文档