数据分析期末试题及答案课案.doc

数据分析期末试题及答案课案

数据分析期末试题及答案 人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系 上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 上图是以疫苗接种率(x3)的三次方()为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。 线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3*+εi i=1.2……24 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 1 .952a .907 .891 3.332 a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 Anovab 模型 平方和 df 均方 F Sig. 1 回归 1937.704 3 645.901 58.190 .000a 残差 199.796 18 11.100 总计 2137.500 21 a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) 33.014 3.137 10.523 .000 x1 .072 .015 .404 4.865 .000 x2 .169 .040 .431 4.245 .000 x3 .178 .049 .339 3.654 .002 a. 因变量: y 由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。 同理可以得出RES_1与X2、X3的散点图, 由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。 由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。 误差项的正态性检验 数据(RES_1)标准化残差ZRES_1 由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总体 二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率,其中33家在2年后破产Y=0,另外33家在同期保持偿付能力(Y=1)。请用变量X1(未分配利润/总资产),X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。 解: 整体性的假设检验 提出假设性检验 H0:回归系数=0(i=1,2,3),H1:不都为0 建立logistic模型: = 分类表a,b 已观测 已预测 Y 百分比校正 0 1 步骤 0 Y 0 0 33 .0 1 0 33 100.0 总计百分比 50.0 a. 模型中包括常量。 b. 切割值为 .500 不在方程中的变量 得分 df Sig. 步骤 0 变量 X1 31.621 1 .000 X2 19.358 1 .000 X3 2.809 1 .094 总统计量 37.623 3 .000 用强行全部进入 模型汇总 步骤 -2 对数似然值 Cox Snell R 方 Nagelkerke R 方 1 5.791a .727 .969 a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 13 处终止。 Nagelkerke R 方为0.969,与0相比还是比较大的,所以拟合度比较高 分类表a 已观测 已预测 Y 百分比校正 0 1

文档评论(0)

1亿VIP精品文档

相关文档