房价大数据探析模型检验方法.docVIP

下载本文档

4
0
约2.02千字
约 4页
2017-06-13 发布于福建
举报
版权申诉

房价大数据探析模型检验方法.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

房价大数据探析模型检验方法

房价大数据探析模型检验方法　　摘要：大数据分析模型构建完成后，最重要的是对模型进行检验，如何检验是困扰我们的一个难题，本文围绕房价大数据分析模型，介绍几种大数据分析模型的检验方法，供从事大数据分析研究的人员借鉴和参考关键词：大数据；分析模型；检验方法中图分类号：G712 文献标志码：A 文章编号：1674-9324（2017）17-0082-02 一、引言房价大数据分析模型通过机器学习方法构建，模型建立完成后需要对模型进行检验，房价大数据模型需要检验拟合的情况，欠拟合说明模型对数据的覆盖程度不够，过拟合无法反应模型的通用性。通过回归诊断，诊断残差情况，残差是反映真实值与假设值之间的差，希望模型残差尽量小，假设值极大地逼近真实值。通过检验可以剔除奇异数，剔除一些干扰项二、回归诊断 1.房价大数据分析模型。price1|t|）（Intercept） 43.7778 5.7061 7.672 0.000256 *** size 1.5111 0.2461 6.140 0.000855 *** room 15.7778 10.7282 1.471 0.191782 Signif. codes： 0 ***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1 Residual standard error： 5.837 on 6 degrees of freedom Multiple R-squared： 0.9949，Adjusted R-squared： 0.9932 F-statistic：582.3 on 2 and 6 DF， p-value： 1.346e-07 2.模型参数。采用最小二乘法算法，经过机器学习，训练出模型参数，构成房价大数据分析模型：房价大数据分析模型为y=aX1+bX2+C，其中：X1=size（面积），X2=room（间数），y（总价）。经过机器学习得到模型以下参数：Size=1.5111；Room=15.7778；截距= 43.7778；y=1.5111*X1+15.7778*X2+43.7778，此函数为房价大数据分析模型 3.显著性检验 Estimate Std. Error t value Pr（|t|）（Intercept） 43.7778 5.7061 7.672 0.000256 *** size 1.5111 0.2461 6.140 0.000855 *** room 15.7778 10.7282 1.471 0.191782 Signif. codes： 0 ***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1 残差自由度为6的残差标准误差为5.837，p-value：1.346e-07，P值很小说明无自相关性，残差项之间独立。自变量与应变量相关性，截距和size显著性均为三颗星***，说明截距和size与Y相关性显著；room没有星，说明room与Y房价相关性不显著 4.拟合情况分析通过数据可视化，观察房价大数据散点图，可以看出房价大数据训练样本呈直线分布。可以用线性回归进行房价大数据分析模型的构建通过残差与拟合图，观察和分析模型对训练数据集拟合程度，从上图拟合线（红线）对数据的拟合情况看，基本上拟合了大多数数据。没有发生欠拟合或过拟合。Multiple R-squared： 0.9949，Adjusted R-squared： 0.9932，从这两个数据可以看出拟合达到99%以上，拟合程度很高 5.假设性检验。从正态Q-Q图上可以看出，数据分布在45°直线周围，标准残差成正态分布，满足正态性假设 6.方差检验。同方差性，若满足不变方差假设，位置―尺度图纵坐标为标准化残差的平方根，残差越大，点的位置越高。从图中可以看出经过对残差处理为标准化残差的平方根，拟合的总体趋势还可以，个别点可以看出远离拟合线如“点5”、“点7”，奇异点已经显露 7.奇异数检验。从残差与杠杆图中可以看出离群点和影响强度。Cook’s distance值衡量强影响点的强度，从图中可以看出“点7”这个点Cook’s distance值超过0.5是所有数据中Cook’s distance值最高的数据，它是目前的强影响点。杠杆值高的数据是离群点，目前“点4”杠杆值也较高，它也是离群点三、交叉验证从训练数据集中提取一部分数据作为验证数据，将验证数据代入房价大数据分析模型，得出的结果与真实数据进行比较。如果与真实值很接近，说明分析模型预测房价比较准确；如果模型得出的结果与真实的房价相差较大，需要优化房价