- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实用回归试分析部分复习资料
第一部分
1.正态分布是具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,记作N(μ,σ^2 )。
2.X^2分布(卡方分布是如果从正太分布()总体中得到独立的随机变量分别为X1X2,…Xn,则由Xi^2得到的分布称作自由为n的X^2,记作X~X^2(n)
(E(X)=n, Var(X)=2n)
3.T是假设XN(),Y~Xn),Y相互独立,则变量 t=x/√(Y/n)t()
4. F分布是设X、Y为两个独立的随机变量,X~X2(n1),Y~X^2(n2) ,F=X/n1)/(Y/n2)F(1,n2)
自由度是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的自变量的个数,称为该统计量的自由度。
是由样本数据估计总体分布所含未知参数的真值,所得到的值常用方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等
P值:当原假设为真时所得到的样本观察结果或更极端结果出现的概率。P值越小,表明结果越显著。
三.岭际法
岭际法选择k值的一般原则是: :
(1)各回归系数的岭估计基本稳定;
(2)用最小二乘估计时符号不合理的回归系数;
(3)回归系数没有不合乎经济意义的绝对值;
(4)残差平方和增大不太多。
四.方差扩大因子法
方差扩大因子cjj度量了多重共线性的严重程度,计算岭估计的协方差阵,得
D()=cov(,)=cov((X′X+kI)-1X′y,(X′X+kI)-1X′y)
=(X′X+kI)-1X′cov(y,y)X(X′X+kI)-1=σ2(X′X+kI)-1X′X(X′X+kI)-1
=σ2(cij(k))
式中矩阵Cij(k)的对角元cjj(k)就是岭估计的方差扩大因子。
不难看出,cjj(k)随着k的增大而减少。选择k使所有方差扩大因子cjj(k)≤10。
五.由残差平方和来确定k值
岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:
SSE(k)<cSSE (1.1)
寻找使(1.1)式成立的最大的k值。
第二部分
一、一家保险公司十分关心其总公司营业部加班的程度,决定认真调查现状。经十周时间,收集了每周加班时间的数据和签发的新保单数目,x为每周签发的新保单数目,y为每周加班时间(小时)
序号 1 2 3 4 5 6 7 8 9 10 x 825 215 1070 550 480 920 1350 325 670 1215 y 3.5 1 4 2 1 3 4.5 1.5 3 5 (2)x与y之间大致呈线性关系。
(3)设回归方程为
(4) =0.2305
0.4801
(5) 由于
服从自由度为n-2的t分布。因而
也即:=
可得
即为:(0.0028,0.0044)
服从自由度为n-2的t分布。因而
即
(6)x与y的决定系数 =0.908(
ANOVA X 平方和 df 均方 F 显著性 组间 (组合) 1231497.500 7 175928.214 5.302 .168 线性项 加权的 1168713.036 1 1168713.036 35.222 .027 偏差 62784.464 6 10464.077 .315 .885 组内 66362.500 2 33181.250 总数 1297860.000 9 由于,拒绝,说明回归方程显著,x与y有显著的线性关系。
(8) 其中
接受原假设认为显著不为0,因变量y对自变量x的一元线性回归成立。 (9) 相关系数 =
小于表中的相应值同时大于表中的相应值,x与y有显著的线性关系.
(11)
(12),
即为(2.7,4.7)
近似置信区间为:,即(2.74,4.66)
(13)可得置信水平为为,即为(3.33,4.07).
二、 利用计算机求 求利用下面的公式简单
三者的关系
三、等级相关系数
相关系数
四.主成分分析设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析
对原始数据进行标准化
计算相关系数矩阵
ij为i,与Xj的相关系数)
计算特征值与特征向量λI-R|=0,排序λ1≥λ2≥ ≥λp≥0
计算主成分载荷
各主成分的得分
部分语言分析
一元线形回归模型:有变量x,y。假设有关系y=c+bx+e,其中c+bx 是y随x变
文档评论(0)