- 310
- 0
- 约6.41千字
- 约 11页
- 2017-01-05 发布于重庆
- 举报
实验十三(回归分析).
实验目的1、了解回归分析的基本原理,掌握MATLAB实现的方法;2、练习用回归分析解决实际问题。二、 实验内容项目一:社会学家认为犯罪与收入低、失业及人口规模有关,对20个城市的犯罪率y(每10万人中犯罪的人数)与年收入低于5000美元家庭的百分比x1、失业率x2和人口总数x3(千人)进行了调查,结果如表序号yx1x2x3序号yx1x2x3111.216.56518.16420.56923.17.4762340.726.39719.15.8279345.316.55224.78.6741524.819.27.312481518.118.66.5625612.716.55924.98.3854720.920.26.419641714.917.96.7716835.721.37.615311825.822.48.692198.717.24720.28.4595109.614.36716.96.73353(1)若x1~x3中至多只许选择2个变量,最好的模型是什么?(2)包含3个自变量的模型比上面的模型好吗?确定最终模型。(3)对最终模型观察残差,有无异常点,若有,剔除后如何。问题分析及模型建立:该问题含有三个影响因子,我们需要找出犯罪率与这三个影响因子的影响关系,为此,可以先建立适当的模型进行回归分析,找到最优化的模型。在不考虑交互影响和二次项的影响的情况下,可以先逐个分析单个变量,再分析两个变量,最后三个变量结合在一起进行分析,找到回归效果最好的一个模型。解决方案:利用MATLAB的统计工具箱很容易就可以完成上述的回归分析,首先对每个变量做散点图进行直观的观察:从散点图中可以明显的看出人口总数与犯罪率之间没有很好的线性关系,收入水平和失业率和犯罪率之间有着比较明显的线性关系。再进行具体的回归分析来分析两个变量和三个变量的影响情况,结果整理成表格如下:影响因子:回归系数回归系数估计值回归系数置信区间-34.0725[-48.2643,-19.8808]1.2239[0.0251,2.4227]4.3989[1.1790,7.6189]影响因子:回归系数回归系数估计值回归系数置信区间-31.2152[-48.7280,-13.7025]2.5955[1.7447,3.4464]0.0004[-0.0012,0.0020]影响因子:回归系数回归系数估计值回归系数置信区间-31.5998[-46.8352,-16.3643]7.3519[5.2732,9.4305]0.0008[-0.0006,0.0023]影响因子:回归系数回归系数估计值回归系数置信区间-36.7649[-51.6274,-21.9024]1.1922[0.0015.2.3828]4.7198[1.4754,7.9643]0.0008[-0.0006,0.0021]根据表中的数据及残插图,我们可以解答题目中的三个问题。(1)无论从散点图还是线性回归的结果看来,和都对y有着显著的影响。经过回归分析,当只考虑两个因素时, 和对y的回归是最优的,表现在数据上就是值和F值最大,的值最小。(2)当考虑三个变量时,可以发现虽然在数据上就是值和F值变大了,的值变小,但都不明显,可是与此同时,通过残插图我们可以发现,异常点的个数却增多了,所以说增加到三个因素时的回归效果不一定比两个因素回归的效果好,所以最终确定的模型应是仅考虑和的影响进行回归得到的模型:(3)通过残插图发现第八个点和第二十个点是异常点,剔除这两个点之后在进行线性回归得到的结果如下:影响因子:回归系数回归系数估计值回归系数置信区间-35.7095[-45.2633,-26.1557]1.6023[0.7776,2.4270]3.3926[1.2166,5.5686]去除异常点后的数据要比之前好很多,值和值都有明显的增加,值则明显的减小了,残插图也都表现正常。故最终确定的模型为:附MATLAB主程序如下:clear all;y=[11.2 13.4 40.7 5.3 24.8 12.7 20.9 35.7 8.7 9.6 14.5 26.9 15.7 36.2 18.1 28.9 14.9 25.8 21.7 25.7]; x1=[16.5 20.5 26.3 16.5 19.2 16.5 20.2 21.3 17.2 14.3 18.1 23.1 19.1 24.7 18.6 24.9 17.9 22.4 20.2 16.9]; x2=[6.2 6.4 9.3 5.3 7.3 5.9 6.4 7.6 4.9 6.4 6 7.4 5.8 8.6 6.5 8.3 6.
原创力文档

文档评论(0)