SAS系统和数据分析多元线性回归分析参考.doc

下载文档 降价啦

43
0
约4.83万字
约 40页
2018-03-15 发布于贵州
举报
版权申诉
保障服务

SAS系统和数据分析多元线性回归分析参考.doc

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SAS系统和数据分析多元线性回归分析参考

多元线性回归分析多元回归模型表示法通常，回归模型包括k个变量，即一个因变量和k个自变量（包括常数项）。由于具有N个方程来概括回归模型： (32.1) 模型的相应矩阵方程表示为： (32.2) 式中; (32.3) 其中,Y为因变量观察的N列向量，X为自变量观察的N× (k+1) 矩阵，为末知参数的(k+1) )列向量，? 为误差观察的N列向量。在矩阵X表达式中，每一个元素Xij 都有两个下标，第一个下标表示相应的列（变量），第二个下标表示相应的行（观察）。矩阵X的每一列表示相应的给定变量的N次观察的向量，与截矩有关的所有观察值都等于1。经典的线性回归模型的假设可以阐述如下：模型形式由(32.1)给定；矩阵X的元素都是确定的，X的秩为(k+1)，且k小于观察数N； ? 为正态分布，E(? )=0 和，式中I为N×N单位矩阵。根据X的秩为(k+1) 的假定，可以保证不会出现共线性。如果出现完全共线性，矩阵X的一列将为其余列的线性组合，而X的秩将小于(k+1) )，关于误差的假设是最有用的假设，因为用它可以保证最小二乘法估计过程的统计性质。除了正态性外，我们还假定每一个误差项的平均值为0，方差为常数，以及协方差为 0 。假若我们按Y的分布来表示第三个假设，则可写成下式： (32.4) 最小二乘法估计我们的目的是求出一个参数向量使得残差平方和最小，即： (32.5) 式中： (32.6) (32.7) 其中，表示回归残差的N列向量，而表示Y拟合值的N列向量，表示为估计参数的(k+1) 列向量，将式(32.6)和式(32.7)代入式(32.5)，则得： (32.8) 为了确定最小二乘法估计量，我们求ESS对进行微分，并使之等于0，即： (32.9) 所以： (32.10) 被称为“交叉乘积矩阵”，即矩阵能够保证逆变换，这是因为我们假设X的秩为(k+1),该假设直接导致了的非奇异性。最小化的二阶条件是，是一个正定矩阵。最小二乘法残差有一个有益的特性，即： (32.11) 这个结果说明自变量和残差的交叉乘积的总和为O，这个公式在一些推导中是非常有用的。现在可以考虑最小二乘估计量的性质。首先可以证明它们是无偏估计量。因为： (32.12) 设式中，且是常数，这样： (32.13) 根据式(32.13) ，可以看到，只要遗漏变量都是随机分布的，与X无关，并且具有 0 均值，则最小二乘法估计量将是无偏的。 (32.14) 我们看到，最小二乘法估计量为线性和无偏估计量。事实上，为的最佳线性无偏估计量，也就是说，它在全部无偏估计量中方差最小，这就是著名的高斯－马尔可夫定理。为了证明高斯－马尔可夫定理，我们需要证明，任何其他线性估计量b的方差比的方差大。请注意=AY。为了不失去一般性，我们可写成： (32.15) 假如b是无偏的，则： (32.16) 式(32.16)成立的一个必要和充分的条件是，这样就可以研究矩阵。由于，所以有： (32.17) 由于：因为，所以，即： (32.18) 我们可以看出，为一半正定矩阵。该矩阵的二次型为0，只有当＝0（所有元素为0）时才出现。当时，另外的估计量就是普通最小二乘法估计量，这样，我们的定理就得到证明。的估计和t检验为了计算估计参数的方差－协方差矩阵，我们需要给出的估计量，该估计量自然选为： (32.19) 证明为的一个无偏估计量，虽很单调冗长，但不困难。因此，是Var()的估计。当为已知时，可用正态分布假设检验。当用近似时，我们不得不用t假设检验。为此，我们利用以下的统计结果：若已知，则服从分布，具有N－k－1个自由度；服从分布，具有N－k－1个自由度；，当i=0，1，2,…，k时，服从正态分布，平均值为0，方差为，其中vi为的第i个对角线元素；和相互独立。由此得出： (32.20) 该式为t分布，具有(N-k-1)个自由度。这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。假如t值的绝对值相当大，就可以在适当选定的置信水平上否定原假设，参数的置信区间可由下式得出： (32.21) 其中，为与显著水平有关的t分布临界值。 R2和F检验我们可将Y的总变差分成两部分，一部分代表已说明变差，另一部分代表未说明变差。为了简化公式推导过程，首先我们假定Y变量具有0平均值，即 =0，则有： (32.22) 由于和，因此： (32.23) 式中为总平方和，为回归（已说明）平方和，为残差（未说明）平方和，归纳成回归方差分析表，见表32.1。表32.1 回归方差分析表变异来源 source 离差平方和 SS 自由度 df 均方 MS F统计量 F P概率值