第二讲相关分析与归分析.doc

下载文档 降价啦

25
0
约8.03千字
约 21页
2016-12-01 发布于贵州
举报
版权申诉
保障服务

第二讲相关分析与归分析.doc

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第二讲相关分析与归分析

第二讲相关分析与回归分析第一节相关分析 1．1 变量的相关性 1．变量的相关性分两种，一种是研究两个变量X与Y的相关性。本节只研究前者，即两个变量之间的相关性；。 2．两个变量X与Y的相关性研究，是探讨这两个变量之间的关系密切到什么程度，能否给出一个定量的指标。这个问题的难处在于“关系”二字，从数学角度看，两个变量X、Y之间的关系具有无限的可能性，一个比较现实的想法是：确立一种“样板”关系，然后把X、Y的实际关系与“样板”关系比较，看它们“像”到了什么程度，给出一个定量指标。 3．取什么关系做“样板”关系？线性关系。这是一种单调递增或递减的关系，在现实生活中广为应用；另外，现实世界中大量的变量服从正态分布，对这些变量而言，可以用线性关系或准线性关系构建它们之间的联系。 1．2 相关性度量 1．概率论中用相关系数(correlation coefficient)度量两个变量的相关程度。为区别以下出现的样本相关系数，有时也把这里定义的相关系数称为总体相关系数。可见相关系数是判断变量间线性关系的重要指标。 2．样本相关系数我们也只能根据这个容量为n的样本来判断变量X和Y的相关性达到怎样的程度。这个估计称为样本相关系数，或Pearson相关系数。它能够根据样本观察值计算出两个变量相关系数的估计值。和总体相关系数一样，如果，称X和Y不相关。这时它们没有线性关系。多数情况下，样本相关系数取区间((1, 1)中的一个值。相关系数的绝对值越大，表明X和Y之间存在的关系越接近线性关系。 1．3 相关性检验两个变量X和Y之间的相关性检验是对原假设 H0：Corr(X,Y) = 0 的显著性进行检验。检验类型为t。如果H0显著，则X和Y之间没有线性关系。 1．4 计算样本相关系数Correlate\Bivariate 例1 数据data02，计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数。打开Correlate\Bivariate对话框，将变量salary、salbegin、educ和prevexp输入Variables，点击OK，即得表格：表格中的Pearson Correlation指样本相关系数，例如起始薪金与受教育年限的相关系数为0.633；Sig.为相关性检验结果，起始薪金与受教育年限的相关性检验结果为Sig.=0.000，在0.05和0.01的水平下，都能否定它们不相关的假设。N为观察值个数。 1．5 偏相关系数 1．控制变量以上在计算变量X和Y的相关系数时，并没有考虑有其他变量的影响。例如：计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890，但是当前薪金显然还受到受教育年限(educ)的影响，这个影响在计算相关系数时没有被扣除，因此0.890这个数字不完全真实。如扣除educ的影响，在计算salary和salbegin的相关系数，就更接近真实了。这个被扣除的变量就叫控制变量，这里educ便是控制变量。控制变量可以不止一个。 2．偏相关系数扣除控制变量影响后得到的相关系数称为偏相关系数(partial correlation)，计算命令为：Correlate\Partial. 例2 数据data02，计算当前薪金与起始薪金在扣除受教育年限影响后的偏相关系数。在Partial Correlations对话框中，将变量salary、salbegin输入Variables，将变量educ输入Controlling for，然后OK，得：其中Corrlation指偏相关系数，df自由度，Significance是对原假设H0：pCorr(X,Y)＝0检验结果得到的水平值。可见：偏相关系数值等于0.795；不能接受不相关的假设。第二节线性回归方程 2．1 一元线性回归方程 1．相关分析是以线性关系为“样板”，讨论变量X和Y的相关程度，这一程度用相关系数表示。我们不禁要问：这个“样板”是什么？也就是把这个做“样板”的线性表达式：给出来，这也就相当于把系数b0和b1估计出来。这样，变量X和Y的关系就可以表示成为：其中(为误差，是一个随机变量。显然，相关系数绝对值越大，误差(在表达式中占的比重就越小，也就是线性部分占的比重越大，这就有可能用线性表达式(1)近似表达变量X和Y的关系。称线性表达式(1)为变量Y对于X的（一元线性）回归方程。回归分析的主要任务是回答： 1）回归方程(1)能否近似代表变量X和Y的关系。这实际是对线性部分与误差部分各占比重的估量； 2）怎样估计回归方程(1)，也就是怎样估计参数b0和b1。显然，

您可能关注的文档

文档评论（0）

ikangdwe + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第二讲相关分析与归分析.doc