·558· 中国卫生统计2015年8月第32卷第4期
基于随机森林回归的网络构建方法及应用
哈尔滨医科大学卫生统计学教研室(150086) 侯 艳 杨 凯 李 康△
【提 要】 目的 探讨基于随机森林(RF)回归估计因果关系网络的效果。方法 通过模拟实验设定因果关系网
络,对数据标准化后,利用全条件RF回归对其进行估计并评价其准确性。另外将该方法用于卵巢癌基因表达谱数据,并
对分析结果进行验证。结果 模拟实验结果表明RF回归对于预先设定网络关系的识别能力明显优于贝叶斯网络方法。
当选择合适的阈值时,随着样本含量的增加基于随机森林回归方法构建的网络准确性不断提高,但传统经典的贝叶斯方
法效果基本保持不变;实例分析结果验证,基于RF回归方法能够得到与现有数据库的网络结构。结论 应用基于RF回
归方法估计的网络,能够在样本量较少的情况下得出准确度较高的网络。
【关键词】 调控网络 随机森林回归 贝叶斯网络
NetworkReconstructionwithRandomForestRegressionanditsApplication
HouYan,YangKai,LiKang(DepartmentofHealthStatistics,SchoolofPublicHealth,HarbinMedicalUniversity(150086),
Harbin)
【Abstract】 Objective Toinvestigatetheperformanceofnetworkreconstructionbasedonrandom forestregres
sionMethods Simulationstudieswereperformedtoevaluatetheaccuracyfornetworkreconstructionwithstandardizeddata
andconditionalrandomforestregressionResults Simulationstudiesdemonstratedthatthenetworkreconstructionperformance
withrandomforestregressionisbetterthanthatwithBayesiannetworkInparticular,whenthethresholdsareselectedappropri
ately,theperformancefornetworkreconstructionbasedonrandomforestregressioncouldimprovewiththeincreaseofsample
sizewhilethetraditionalBayesiannetworkwillremainstableBesides,weappliedthisapproachtotherealexampleandachieved
satisfactoryperformanceConclusion Theproposedmethodinthispapercouldachievesatisfactoryperformancefornetworkre
constructioninsmallsamplesize.
【Keywords】 Regulatorynetwork;Randomforestregression;Bayesiannetwork
目前有多种方法对基因调控、蛋白互作及代谢通 析,在全条件下得到任意两变量之间连接的权重,排序
路等网络进行估计,例如通过计算变量间偏相关系数 后按照一定的阈值取连接的边和方向,推断出需要估
推断变量间的条件相关关系、基于概率的方法确定信 计的网络。由于RF回归不会出现过拟合的问题,因
息网络边[1]、基于图形理论和信息传递算法获得网络 此可以在高维情况下进行分析;同时RF回归对数据
中的直接信息流[2-3]、利用因果推断模型来获取变量 的分布和变量之间的关系不需要做出任何假定,能够
原创力文档

文档评论(0)