- 46
- 0
- 约4.15千字
- 约 5页
- 2021-04-18 发布于四川
- 举报
基于随机森林算法的川芎成分—靶点—疾病网络的预测研究
川芎为伞形科植物川芎Ligusticum chuanxiong Hort.的干燥根茎,具活血行气、祛风止痛的功效,对心脑血管系统、神经系统等疾病有独特的疗效sup/sup,但其药理作用分子机制尚不明确。中药网络药理学研究立足于中药已知化学成分及相关疾病靶标,用计算方法研究中药化学成分的多靶标、多途径协同作用,并用网络拓扑图的形式直观呈现sup/sup。中药网络药理学初步揭示中药成分复杂作用机制,将中药作用机制研究推进到分子水平sup/sup,为开发现代中药奠定方法学基础。本文以川芎为研究对象,运用网络药理学方法,研究川芎“成分-靶点-心脑血管相关疾病”复杂网络,从网络药理学角度阐释川芎治疗心脑血管类疾病的有效成分及其潜在靶点,为开发更好的心脑血管类候选药物提供参考依据。
1 方法
1.1 数据集 从KEGGsup[4-5]/sup数据库下载小分子化学药的分子结构及其相应靶蛋白受体,剔除缺乏实验数据的药物-靶点,最终获得4 782条药物-靶点配对,其中包括2 711条药物-酶蛋白受体、1 365条药物-离子通道蛋白受体、620条药物-G蛋白受体、86条药物-核蛋白受体。以上数据作为本研究的阳性样本集。
阴性样本集通过以下步骤获得:①将阳性样本集中的药物-靶点配对拆开,得到单个的药物分子和靶蛋白;②对药物分子和靶蛋白重新组合配对,如配对结果已包含在阳性样本集中,则该配对应予剔除;③从②中随机挑选出2倍于阳性样本集的配对结果,即为阴性样本集。分别合并上述4类药靶配对阴阳样本,即得训练集数据。
1.2 分子描述符 应用PowerMV(ponent analysis,PCA)对上述数据进行降维处理,按保留原始信息99.7%的信息量进行降维,获得数据矩阵分别为8 133×17,4 095×4,1 860×24,258×17。然后,再按下式进行归一化处理。
x(i)=[x0(i)-Min(x0)]/[Max(x0)-Min(x0)]
其中x0(i)是原始数据,x(i)是归一化后数据,其值在-1~1。
1.3 模型与检验 随机森林(random forest,RF)是Leo Breiman于2021年提出的一个组合分类器算法sup/sup,是由很多决策树分类模型{h(X,Θk),k=1,……}组合而成的,其中X是输入向量,参数集{(Θk)}是独立同分布的随机向量,预测时由投票法决定分类结果。其基本思想是通过自助法重采样技术,在原始样本集的基础上产生多个自助样本集,每个自助样本集是每棵分类树的全部训练数据sup/sup。每个自助样本集生长为单棵分类树。在树的每个节点处,从M个特征中随机挑选mtry个特征(mtryM),通常假设mtry=。按照节点不纯度最小的原则,从这mtry个特征中选出一个特征进行分支生长。单棵分类树进行充分生长,使每个节点的不纯度达到最小,不进行通常的剪枝操作。将生成的ntree棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
c=arg maxc
大量的理论和实证研究都证明了RF 具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。可以说,RF是一种自然的非线性建模工具,是目前数据挖掘、生物信息学最热门的前沿研究领域之一。
K折交叉验证(K-fold cross-validation)可用来检验随机森林分类模型的预测能力。K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证1次,平均K次的结果或者使用其他结合方式,最终得到一个单一估测。本研究采用10折交叉验证评价RF预测精度,即K=10。
2 结果与讨论
2.1 模型优化 应用随机森林法建立模型,需要优化其主要参数,即树数(ntree)和每棵树的节点数(mtry)。本文采用网格搜索法进行参数优化,以获得最高的模型交叉验证正确率(Accuracy),见表1。
Accuracy=(1-NY/Y)×100%2.2 川芎作用靶点预测 从化学专业数据库(http://pound)下载已报道的川芎所含化学成分,共计50个。为去除类药性不高的非药效成分,本研究计算夹角余弦(cosine)比较川芎成分与训练集中小分子药物的化学空间相似性。夹角余弦越大表示2个向量的夹角越小,即相似性越高。本文中夹角余弦的阈值设定为0.96,从而在50个川芎成分中挑选出了26个与训练集中小分子药物化学空间相近的化合物。
将上述26个化合物与4种已知的靶点进行组合,构建预测集。预测
您可能关注的文档
最近下载
- 高三数学模拟题大题.doc VIP
- 市政工程建设项目质量管理手册(标准版).docx VIP
- 2025反无人机系统架构研究报告.pdf VIP
- 2025年反无人机枪技术发展路线图及产业布局报告.docx VIP
- 五菱宏光保养保修及用户手册.pdf VIP
- 粉面品类新品趋势洞察报告2025.pdf VIP
- 华创交运行业低空60系列深度研究报告:国家安全视角看反无人机系统,急需与刚需,“可选”到“必选”——华创交运低空60系列研究.pdf VIP
- 华创交运低空60系列研究-七-:低空新基建,哪个环节或放量?雷达行业初探.pdf VIP
- 自建房培训课件下载安装.ppt VIP
- 2025年度民主生活会个人对照检查发言材料汇编(五个带头范文八篇).docx VIP
原创力文档

文档评论(0)