定量研究方法论多变量回归.docVIP

下载本文档

15
0
约1.12万字
约 16页
2017-02-11 发布于重庆
举报
版权申诉

定量研究方法论多变量回归.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

定量研究方法论多变量回归

第七章多变量回归引言在单变量回归分析中，我们已经提到应该如何去看待残差。残差并不一定是白噪音。残差只是因为研究者对其中的信息不加细究，而简单地把这些信息归类到残差而已。如果现在研究者对残差中的信息感兴趣了，他就会增加自变量的个数。相应地，残差中的信息会减少。因为有了新的自变量来解释应变量，我们对应变量的理解也就加深了。多变量线性回归在单变量线性回归的基础上引入更多的自变量。因为多变量线性回归秉承了单变量线性回归的拟合方法与假设检验的思想，我们在本章将只作简单介绍。我们要重点介绍的是多变量线性回归所特有的一些方面，包括自变量之间的关系、自变量的选择等等。多变量回归的拟合假如一个研究者对人们对信息源的偏好感兴趣，他意识到人们对信息源的使用偏好不只决定于信息源的质量，还取决于信息的获取成本，在实证研究的数据收集过程中，他就会收集这些信息。我们在这里把信息的获取成本简单地定义为用户与信息源之间的物理距离。我们可以定义以下变量： y=信息源使用偏好, x1=信息源质量 x2=信息获取成本所收集的数据就会有以下的格式： y x1 x2 3 4 5 7 5 1 4 4 3 2 4 6 5 7 4 … … … 其模型就会是：。这种关系反映在空间分布上，表现为y分布在由x1、x2组成的平面的两侧。在(0的地方使用常量向量１，把以上５个样本点写成矩阵模型是：以上模型可以缩略成矩阵形式：对于一个样本，忽略(项，通过简单的矩阵运算可以得到：其中：这样自变量的回归系数b就可以得到了。问题是，这样得到的自变量回归系数可靠吗？它有没有把残差极小化，就象在最小二乘法中那样？答案是肯定的。我们将不对此进行证明。感兴趣的读者可参看本章的附录。在这里，我们要强调的是对这个结论的理解。在这个解中，矩阵X’X对角线上的元素表示的是各x变量未经均值修正（uncorrected）的方差和，非对角线上的元素则是x变量之间的积和（cross-product）。所以，这个矩阵又叫方差和与积和矩阵（SSCP- sum of squares and cross-products matrix）。直观地，如果我们把矩阵（X’X）的逆看作倒数，把X’y看作积和，b是X与y的积和除以X的方差和与积和，这和我们在单变量回归中所得到的结果（b1=SSxy/SSxx）是一致的。我们可以把X’X的逆记为：。与单变量的情形类似，可以证明（略）每个自变量的回归系数：。当我们不知道时，我们代入它的样本估计量MSE：。如果我们一样假定应变量服从单一的、独立的、均值为零的正态分布，我们就可以推得bi/s(bi)服从t 分布，从而检验关于bi的假设。与单变量的线性回归一样，我们可以对应变量进行方差分析。y中的总方差是：其中被自变量解释的部分是：，剩余部分是：。 SSyy=SSR+SSE。这和单变量的情形没有什么不同。其ANNOVA是： Source of Variation SS df Mean Squares Regression p MSR=SSR/p Error n-p-1 MSE=SSE/(n-p-1) Total n-1 MST=SST/(n-1) Correction for mean 1 Total, uncorrected n 其中p是参数（所要求的回归系数）个数。相应地，我们可以计算多变量情况下的决定系数R2：我们也可以构造一个关于SSR/SSE的F统计量。这样我们就可以测试拟合度的总体显著性。 H0: (1=… (p=0 Ha: at least one parameter is nonzero 可以证明：。所以对F测试也是对R2的测试。至此，我们可以用多变量线性回归来做（1）假设检验和（2）拟合度检验。前者往往用于对一个理论假设的测试，而后者则是对一组自变量总体的有效性的测试，它反映了所解释的与未解释的信息的比例。我们一样地作了如下的假定：应变量服从单一的、独立的、均值为零的正态分布。那么如何来理解一个拟合的多变量线性回归的回归系数呢？对于一个拟合的模型：， b0是当x1与x2皆为零时的应变量取值。而bi则应当理解为当xi变化一个单位，假定其它的自变量不变，应变量会变化bi个单位。这里的重点是要假定其它的自变量不变。在现实情况中，因为自变量之间几乎总是相关的，所以这种理解几乎总是不成立的。这提醒我们一个系统在变化的时候几乎很少是只在一个方向上变化，而是同时在多个方向上变化。这同时也告诉我们，如果模型中意义相近的自变量越多，它们的回归系数就越无法解释、越没有解释作用。一个好的模型应该包括相对独立的自