- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
随机森林算法应用于锅炉燃料量预测参数设定
随机森林算法应用于锅炉燃料量预测参数设定
摘要:随着经济和信息技术的飞速发展,海量数据已经成为了当今信息社会的一个重要的特点。本文提出了将海量数据应用于电厂运行参数分析当中,再基于随机森林算法对电厂煤耗量预测的一种新思路,本文着重对决策树算法与随机森林算法这两种常用的数据分类回归算法进行了比较分析,并对随机森林算法的参数设定进行了试验分析并得出结论。对日后进行电厂的煤耗量、负荷以及其他运行参数进行研究提供了保障。进而达到根据电厂负荷的大量历史数据对未来所需的负荷值进行准确预测的目的。
关键词:随机森林算法 煤耗量 决策树算法 参数
中图分类号:TP274+2 文献标识码:A 文章编号:1007-9416(2016)02-0000-00
Leo Breiman于2001年发表的文献对随机森林算法做了详细的阐述,给出了随机森林的详细介绍和一系列数学推导,包括随机森林的定义、算法流程、泛化误差分析,而且给出了一个泛化误差上界,证明了随机森林不会过拟合,并对随机森林的分类强度和相关度进行研究[1-4]。此外,随机森林还可以得到属性的重要性排序以及样本之间的相似程度度量。
由于随机森林具有的良好性能,使得随机森林算法在数据挖掘领域得到广泛的研究和应用,包括生物信息学、金融学、医学、经济管理学、图像识别、工业自动化等方面[5-7]。
1 数据预处理
利用matlab编程对实验所用数据进行相应的去噪声与填补空缺值处理。对于每一特征属性值求其平均值,将数据集中空缺值或非数字型字符(NAN)的位置用所求到的平均值代替。
随着随机森林集成模型中决策树数目的增长,泛化误差PE*将收敛于:
(1)
式中 ――分布概率随机向量; ――分类器函数,等同于 ,公式(1)的证明在文献[9]中已经给出,并且表明随机森林不会出现过拟合。这是随机森林的一个重要特点,随着树的增加,泛化误差PE*将趋向某一上界。这表明了随机森林系统对噪声具有较好的容忍能力。
2 随机森林算法与决策树算法比较分析
决策树是一种十分常用的分类回归方法。决策树又名分类回归树(classregtree),顾名思义,一个用于分类,一个用于回归。此处从预测的角度讲决策树用于回归的功能。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,就是常用经典算法ID3,C4.5生成树算法使用的熵。对一个给定的样本分类所需的期望信息由下式给出:
随机森林,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林中的任意两棵决策树是相对独立的。对于新来的测试样本,通过每棵决策树都对它进行回归决策,最后的回归结果由平均值得出。虽然决策树不是很强的分类器,但是通过组合起来的随机森林,却是一种强分类器。由于ID3算法只能用于分类,因此随机森林常采用Cart算法进行分裂点选择。其核心由Gini指数的大小来衡量,取Gain最小的属性作为分裂点。
本次实验数据来自某电厂的历史站数据,信息采集频率是20s。本实验从现场可测的数据中选取对锅炉燃煤量预测产生影响的属性作为其输入属性特征。图1为去掉现场可测属性中的某一属性的oob error值与使用全部属性时的obb error值对比图像。由图像可知,去掉减温水流量、锅炉蒸发量和再热蒸汽压力时随机森林算法的误差反而降低了,因此选取将这三个属性特征去除,不作为预测的属性值。随后可以对实验数据进行人为的扩充达到多领域大数据的规模重复实验。进行反复多次的测试,最终取平均值作为实验结果。
其中,红色线为使用全部可测属性进行运算的oob error值,蓝色、黄色和黑色分别是去掉减温水流量、锅炉蒸发量和再热蒸汽压力时算法的oob error值,绿色为其它属性被去掉时算法的oob error值。
3 随机森林算法性能分析与重要参数设定
RF利用bootstrap重抽样方法从原始样本中抽取同原始数据样本集个数相同的多个样本构成样本子集,利用每个样本子集构建决策树,然后融合多棵决策树得出预测结果。在构建RF时,有几个主要参数会影响到RF的性能和效率:
(1)随机森林中树的数量。设Ntree表示RF中树的数量。当Ntree较小时,RF的分类回归误差大、性能也比较差。另一方面,RF具有不过拟合性质,因此可以使 Ntree 尽量大,以保证集成分类器的多样性。但是构建RF的复杂度与Ntree成正比,Ntree过大,会使得RF构建时间花费过大。同时森林的规模达到一定程度时,将导致森林的可解释性减弱。因此,Ntree对RF的性能、可解释性和复杂性之间的平衡都具有重要意义。根据所求出的误差数据可知,在森林中树的个数不足时,RF的
文档评论(0)