- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十二章相关与回归分析
第十二章 相关与回归分析
社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系。第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。
第一节 变量之间的相互关系
1.相关程度与方向
从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfect association)。而变量相关程度的另一个极端值是无相关(no association)或零相关(zero association),即变量之间不存在任何数量上的依存关系。相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系。
在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当=l时,表示为完全相关;当r=0时,表现为无相关或零相关;当01时,表现为不完全相关。但在采用相关系数r这一指标时必须注意到,存在着完善曲线而r=0的情况。当然,变量在其他测量层次的关系强度,也可以用同样的思路加以考虑。
当变量间相关时,还可以探讨其相关方向,可以分正和负两个方向。所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。而负相关关系是指一个变量的值增加时,另一变量的值却减少要强调的是,只有定序以上测量层次的变量才能分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。
2.因果关系
除了相关程度与方向这两种性质外,还应注意两个变量的相关关系是否具有因果性。只有当两个变量之间的关系同时满足以下三个条件时,才能断定这种关系是因果关系:
(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。
(2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的。
(3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
因果关系是一种非对称关系(asymmetrical relationship),这时只是自变量影响因变量,因变量不会反过来影响自变量。如果不能确定或无法区分变量的作用方向,这种情况就称为对称关系(symmetrical relationship)。
第二节 定类变量的相关分析
1.列联表
列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。2×2列联表,是最简单的交互分类表,r ×c频数分布列联表则是一般形式。
条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。
在相对频数分布列联表中,各数据为各分类出现的相对频数(或者频率)。将频数化成相对频数有两种做法:①如果= ,我们得到的是联合分布的列联表,此时也可以称为联合频率;②如果= 或者= ,我们得到的是关于X或者关于Y的相对频数的条件分布,此时也可以称为条件频率
通过列联表研究定类变量之间的关联性,实际上是通过相对频数条件分布的比较进行的。如果不同的X,Y的相对频数条件分布不同,且和Y的相对频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。
2.削减误差比例
在社会统计中,表达相关关系的强弱,削减误差比例PRE(Proportionate Reductionin Error)的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时.其盲目性必然较关系不密切者为小。因此,变量间的相关程度,可以用不知Y与X有关系时预测Y的误差E0,减去知道Y与X有关系时预测Y的误差E1,再将其化为比例来度量。将削减误差比例记为PRE,得
PRE =
削减误差比例PRE适用于各测量层次的变量,但公式中E1、E2系数和τ系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。
3.系数
(1)对称的系数(假设X是自变量,Y是因变量)
(2)不对称的系数(假设X是自变量,Y是因变量)
文档评论(0)