统计学与应用论文: 基于回归方法分析波士顿房价数据间的相关关系.doc

统计学与应用论文: 基于回归方法分析波士顿房价数据间的相关关系.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于回归方法分析波士顿房价数据间的相关关系

摘要:根据波士顿房价数据集中的变量使用R软件对波士顿房价建立线性回

归模型,对回归方程和回归系数进行显著性检验,针对违背基本假设的情况使用

Box-Cox变换后再建立模型。为适当精简方程使用Lasso回归,但其建立的模型回归系数很小,原因是此数据中的变量并没有多重共线性,与使用R软件判断结果

一致。最后,数据中的响应变量与其相关系数的绝对值大于0.5的自变量建立线性回归方程,并对房价进行预测。由于波士顿房价的分布范围会随着影响因素的变化而发生变化,且中位数具有一定的稳健性,因而我们对房价的中位数建立回归模型,即分位数回归模型。

关键词:线性回归模型;Box-Cox变换;Lasso回归;预测;LinearRegressionModel;Box-CoxTransformation;LassoRegression;Prediction

1.引言

波士顿房价数据集是统计的20世纪70年代中期波士顿郊区房价的中位数,统计了当时教区部分的犯罪率、房产税等共计13个指标,统计出房价,试图能找到指标与房价的关系并进行预测。

2.材料与方法

2.1.变量名称与建模目的

2.1.1.变量名称简介

分析波士顿房价数据集(BostonHousePriceDataset)可知影响响应变量MEDV的因素可能有13个,以下为各个属性的介绍,见表1。

表1.相关变量的介绍

本例是属于回归模型的案例,在数据集中包含506组数据。通过对波士顿房地产数据进行初步的观察并分析找出影响房价中位数的因素,希望建立一个能够预测房屋价值的多元线性回归模型。

2.1.2.多元线性回归模型的一般形式

设随机变量y与一般变量x?,x?,…,xp的线性回归模型为

y=βo+β?x?+β2X?+…+βpxp+ε

式中,βo,β1,…,βp是p+1个未知参数,βo称为回归常数,β1,…,βp称为回归系数。y称为解释变量(因变量),x?,X?,…,xp是p个可以精确测量并控制的一般变量,称为解释变量(自变量)。

ε是随机误差,并且假定

2.2.问题解决方法与知识依托

在本例中我们使用R软件解决相应问题。部分代码见参考文献。

2.2.1.预处理

首先将数据导入R软件中,为了消除量纲不同和数量级差异带来的影响,就

需要对数据进行标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。

样本数据的标准化公式为:

,i=1.2,m,n;j=1,2,,p

式中

是自变量x;(j=1,2,…,p)的离差平方和。用最小二乘法求出标准化的样本数据的经验回归方程,记为:

y*=βixi+β2x?+…+βpxp

式中,βi,β2,…,β是y对自变量x?,x?,…,xp的标准化回归系数。2.2.2.回归参数的普通最小二乘估计

即寻找参数βo,β1,…,βp的估计值β1,β2,…,βp,使离差平方和Q(βo,β1,…,βp)=Z=1(yi-βo-β1xi?-…-βpxip)2达到极小。

当(Xx)-1存在时,即得回归参数的最小二乘估计为:

β=(Xx)-1xy

2.2.3.回归方程、回归系数的检验1)F检验

对多元线性回归方程的显著性检验就是要看自变量x?,X?,…,xp从整体上对随机变量y是否有明显的影响。

原假设Ho:β1=βz=…=βp=0构造F检验统计量如下:

当原假设成立时,F服从自由度为(p,n-p-1)的F分布。

当FFa(p,n-p-1)时,拒绝原假设H?,否则认为在显著性水平α下,y与

x?,X?,…,xp有显著的线性关系,即回归方程是显著的。2)t检验

检验x;是否显著等价于检验

Ho:βj=0,j=1,2,…,p

如果接受原假设,则x;不显著;如果拒绝原假设,则x;是显著的。据此可以构造t统计量

式中

2.2.4.违背基本假设情况的检验

1)异方差性

违背了回归模型的基本假定,即

var(εi)≠var(s;),当i≠j时

诊断方法:绘制残差图等级相关系数法

解决方法:多元加权最小二乘估计BOX-COX变换

2)自相关性

违背基本假设,即

cov(ei,g)≠0,当i≠j时

诊断方法:图示检验法自相关系数法DW检验

解决方法:迭代法差分法BOX-COX变换

2.2.5.多重共线性

1)共线性诊断

①方差扩大因子法

作为方差扩大因子的定义,证明见参考文献,当VIF≥10时,说明自变量x,与其余自变量之间有严重的多重共线性。(注意:有些教材认为vif4即

存在多重共线性。详见参考文献。)

②条件数

记XX的

文档评论(0)

奋斗 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档