- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于集成学习房价预测模型
基于集成学习房价预测模型
摘要:随着国民生活水平的提高,人们对房产的需求不断增加,对房价的关注度也持续变高。房价作为多指标影响因子,受到很多条件的影响[2-4][11]。现有房价预测模型多属于单一预测算法,预测精度不理想,当数据噪声较大时又容易出现过拟合现象。针对这些问题,提出基于集成学习的房价预测模型。选用预测效果较好的Extra Trees,Random Forest,GBDT,XGB算法作为基础预测模型,分别训练并对四种基础模型进行stacking[1][5]集成,最终得到集成学习的房价预测模型。在加州房价数据集上试验表明,本方法相比于单一预测模型能够有效提高预测的准确率及稳定性,证实了本模型的有效性。
关键词:集成学习;房价预测;极度随机树; 随机森林;GBDT;XGB; Stacking
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)29-0191-04
1 概述
房地产不仅是国民经济的支柱产业,更和民生问题密不可分,随着房产越炒越热,人们对于房价的关注度也持续变高,因此能够较为精准地对房价进行预测也变得越来越有意义。房价作为多指标影响因子,不仅受时间,区域的影响,房屋年龄、附近地理条件、人文、交通等等因素也同样会对房价产生不同程度的影响。现有的预测模型多属于单一预测算法预测,预测精度并不理想,如人工神经网络,当数据量不够庞大时预测效果得不到保证;而简单的集成模型如随机森林,当噪音较大时会出现过拟合,对于不同级别的属性的数据,级别划分较多的属性也会对随机森林产生很大的影响。基于以上问题,本研究提出一种基于集成学习的房价预测模型,该模型集成了多个单一集成预测模型,包括极度随机树(ET), 随机森林(RF), GBDT, XGB。利用集成学习方法中的stacking集成方法,首先对数据集进行划分,利用每个预测模型(学习器)对房价特征进行提取并在第一个训练集分别训练,在第二个训练集上测试这几个学习器,把得到的测试结果作为输入,正确回应作为输出,训练一个高层学习器作为我们最终的预测模型。实验采用加州房价数据进行训练与预测,通过不断训练和调参,利用均方误差对单一预测模型与基于集成学习的房价预测模型进行误差对比分析,实验结果较为理想,证明了本研究方法的有效性和可行性。
1.1 相关技术及现状简介
本研究主要使用到四种基本预测模型,分别是Extra Trees,RF,GBDT,XGB。但现存的这四种较优的预测模型具有优点的同时也存在着不足:
1.1.1 随机森林模型[7]
随机森林是以决策树为基本单元,通过集成学习的思想将多棵树集成的一种算法。
相比于简单的决策树,随机森林有以下几个优点:
1) 在当前的很多数据集上,相比其他算法有很大的优势,表现良好;
2) 由于特征子集是随机选择的,因此它能够处理很高维度的数据,并且不用做特征选择;
3) 在生成过程中能够获得到内部生成误差的一种无偏估计,泛化能力好;
不足体现在:
1) 随机森林在某些噪音较大的分类或回归问题上会过拟合;
2) ?τ谟胁煌?取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响。
1.1.2 极度随机树模型
Extra Trees, 也叫Extremely Randomized Trees, 是一种决策树的组合方法。与随机森林类似,同样的bootstrap了样本,随机选取部分特征来构造一棵树,但相较于随机森林,极度随机树对于划分点的选择更为随机。优点体现在:
1) 相比于标准的随机森林来说,极度随机树使得决策的边界更加平滑;
2) 极度随机树使用训练样本直接构建随机数,对bagging的方式进行了修正,因此,当数据噪声较大或数据量较大时极度随机树表现要优于随机森林。
不足体现在:由于样本划分点更为随机,可能存在选取结果不是最优的情况,受数据的影响预测结果有时具有随机性,容易不稳定。
1.1.3 梯度提升决策树模型
GBDT (Gradient Boosting Decision Tree)[8], 是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案,被认为是一种泛化能力较强的算法。组成GBDT的树是回归树,因此,GBDT大多用来做回归预测。
优点明显:它的非线性变换比较多,表达能力强,而且不需要做复杂的特征工程和特征变换。缺点主要体现在:Boost是一个串行过程,不好并行化,而且计算复杂度高,同时不太适合高维洗漱特征。
基于以上目前较优的预测算法模型的分析,当前模型对于预测大多存在,数据量噪声大时容易过拟合、预测结果不稳定、预测精度低等不足,
文档评论(0)