- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
房价大数据探析模型检验方法
房价大数据探析模型检验方法 摘要:大数据分析模型构建完成后,最重要的是对模型进行检验,如何检验是困扰我们的一个难题,本文围绕房价大数据分析模型,介绍几种大数据分析模型的检验方法,供从事大数据分析研究的人员借鉴和参考
关键词:大数据;分析模型;检验方法
中图分类号:G712 文献标志码:A 文章编号:1674-9324(2017)17-0082-02
一、引言
房价大数据分析模型通过机器学习方法构建,模型建立完成后需要对模型进行检验,房价大数据模型需要检验拟合的情况,欠拟合说明模型对数据的覆盖程度不够,过拟合无法反应模型的通用性。通过回归诊断,诊断残差情况,残差是反映真实值与假设值之间的差,希望模型残差尽量小,假设值极大地逼近真实值。通过检验可以剔除奇异数,剔除一些干扰项
二、回归诊断
1.房价大数据分析模型。price1|t|)
(Intercept) 43.7778 5.7061 7.672 0.000256 ***
size 1.5111 0.2461 6.140 0.000855 ***
room 15.7778 10.7282 1.471 0.191782
Signif. codes: 0 ***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1
Residual standard error: 5.837 on 6 degrees of freedom
Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932
F-statistic:582.3 on 2 and 6 DF, p-value: 1.346e-07
2.模型参数。采用最小二乘法算法,经过机器学习,训练出模型参数,构成房价大数据分析模型:房价大数据分析模型为y=aX1+bX2+C,其中:X1=size(面积),X2=room(间数),y(总价)。经过机器学习得到模型以下参数:Size=1.5111;Room=15.7778;截距=
43.7778;y=1.5111*X1+15.7778*X2+43.7778,此函数为房价大数据分析模型
3.显著性检验
Estimate Std. Error t value Pr(|t|)
(Intercept) 43.7778 5.7061 7.672 0.000256 ***
size 1.5111 0.2461 6.140 0.000855 ***
room 15.7778 10.7282 1.471 0.191782
Signif. codes: 0 ***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1
残差自由度为6的残差标准误差为5.837,p-value:1.346e-07,P值很小说明无自相关性,残差项之间独立。自变量与应变量相关性,截距和size显著性均为三颗星***,说明截距和size与Y相关性显著;room没有星,说明room与Y房价相关性不显著
4.拟合情况分析
通过数据可视化,观察房价大数据散点图,可以看出房价大数据训练样本呈直线分布。可以用线性回归进行房价大数据分析模型的构建
通过残差与拟合图,观察和分析模型对训练数据集拟合程度,从上图拟合线(红线)对数据的拟合情况看,基本上拟合了大多数数据。没有发生欠拟合或过拟合。Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932,从这两个数据可以看出拟合达到99%以上,拟合程度很高
5.假设性检验。从正态Q-Q图上可以看出,数据分布在45°直线周围,标准残差成正态分布,满足正态性假设
6.方差检验。同方差性,若满足不变方差假设,位置―尺度图纵坐标为标准化残差的平方根,残差越大,点的位置越高。从图中可以看出经过对残差处理为标准化残差的平方根,拟合的总体趋势还可以,个别点可以看出远离拟合线如“点5”、“点7”,奇异点已经显露
7.奇异数检验。从残差与杠杆图中可以看出离群点和影响强度。Cook’s distance值衡量强影响点的强度,从图中可以看出“点7”这个点Cook’s distance值超过0.5是所有数据中Cook’s distance值最高的数据,它是目前的强影响点。杠杆值高的数据是离群点,目前“点4”杠杆值也较高,它也是离群点
三、交叉验证
从训练数据集中提取一部分数据作为验证数据,将验证数据代入房价大数据分析模型,得出的结果与真实数据进行比较。如果与真实值很接近,说明分析模型预测房价比较准确;如果模型得出的结果与真实的房价相差较大,需要优化房价
您可能关注的文档
- 我国高速公路机电工程建设及维护模式探究.doc
- 我在大学看到了中小学残酷竞争后果.doc
- 我拍了很多悲剧,但你们说那都是喜剧.doc
- 我是怎样告别“中二”时代自己.doc
- 我在“假鞋之都”莆田买了双最NBNB鞋.doc
- 我曾历经事,许多人也历经过.doc
- 我花了3年时间,从网吧青年变为自律者.doc
- 我这样来导读《红楼梦》.doc
- 我院2016年门诊糖皮质激素药物不合理使用调查.doc
- 我院大学生裁判能力分析探究.doc
- 2025年北京海关所属事业单位公开招聘笔试高频难、易错点备考题库含答案详解.docx
- 2025年北京市社会科学院专业技术岗位招聘7人笔试高频难、易错点备考题库及答案详解一套.docx
- 2025年北京红叶公益基金会招聘项目负责人笔试高频难、易错点备考题库及参考答案详解1套.docx
- 2025年北京昌平区教委所属事业单位面向应届生招聘教师226人笔试高频难、易错点备考题库附答案详解.docx
- 2025年北京市公安局所属事业单位招聘25人笔试高频难、易错点备考题库及参考答案详解1套.docx
- 2025年北京物资学院招聘72人笔试备考题库及参考答案详解一套.docx
- 2025年北京西城区教委人才引进招聘笔试备考题库及完整答案详解1套.docx
- 2025年北京工业职业技术学院招聘36人笔试高频难、易错点备考题库及参考答案详解一套.docx
- 2025年北京市怀柔区卫生健康委员会所属事业单位招聘医务人员50名笔试高频难、易错点备考题库及参考答.docx
- 2025年北京市退役军人事务局所属事业单位招聘31人笔试高频难、易错点备考题库带答案详解.docx
文档评论(0)