- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十二章 相關与回归分析
第十二章 相关与回归分析; 社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。
本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。
;第一节 变量之间的相互关系;
2. 相关方向:正相关和负相关
所谓正相关关系是指一个变量的值增加时,另一变
量的值也增加。例如,受教育水平越高找到高薪水??作的
机会也越大。而负相关关系是指一个变量的值增加时,另
一变量的值却减少。例如,受教育水平越高,理想子女数
目越少。要强调的是,只有定序以上测量层次的变量才分
析相关方向,因为只有这些变量的值有高低或多少之分。
至于定类变量,由于变量的值并无大小、高低之分,故定
类变量与其他变量相关时就没有正负方向了。;
3. 因果关系与对称关系
因果关系中两个变量有自变量(independent
Variable)和因变量(dependent Variable)之分:
(1)两个变量有共变关系;
(2)因变量的变化是由自变量的变化引起的;
(3)两个变量的产生和变化有明确的时间顺序,前者
称为自变量,后者称为因变量。
表现为对称关系的相关关系,互为根据,不能区分自
变量和因变量,或者说自变量和因变量可以根据研究目的
任意选定,例如身高和体重之间的关系。 ; 4. 单相关和复相关
从变量的多少上看,单相关只涉及两个变量,亦称二元
相关;三个或三个以上变量之间的关系称为复相关,亦称多
元相关。
五、直线相关和曲线相关
从变量变化的形式上看,如果关系近似地表现为一条直
线,称为直线相关或线性相关;如果关系近似地表现为一条
曲线,则称为曲线相关或称为非线性相关。
由于数学手段的局限性,我们以学习线性相关为主。在
统计学中,通过分段处理线性相关也可以用于处理曲线相
关。;第二节 定类变量的相关分析; 1. 列联表
列联表,是按品质标志把两个变量的频数分布进
行交互分类,由于表内的每一个频数都需同时满足两个
变量的要求,所以列联表又称条件频数表。
例如,某区调查了357名选民,考察受教育程度与投
票行为之间的关系,将所得资料作成下表,便是一种关
于频数的列联表。;2×2频数分布列联表的一般形式; r×c频数分布列联表的一般形式;自己志愿;两个边际分布:
; 条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形式。; r×c相对频数分布列联表的一般形式; 在相对频数分布列联表中,各数据为各分类
出现的相对频数(或者频率)。将频数 化成相对
频数 有两种做法:
①相对频数联合分布
两个边际分布 或
②相对频数条件分布
或
; r×c相对频数联合分布列联表;控制X,Y相对频数条件分布列联表;控制Y,X相对频数条件分布列联表; [例A1]试把下表所示的频数分布列联表,转
化为自变量受到控制的相对频数条件分布列联
表,并加以相关分析。 ; 从上表可知,受过大学以上教育的被调查者绝大多
数(占95.8%)是投票的,受教育程度在大学以下的被调
查者虽多数也参与投票(占67.9%),但后者参与投票的百
分比远小于前者;前者只有4.2%弃权,而后者则有32.1%
弃权。两相比较可知,受教育程度不同,参与投票的行
为不同,因此两个变量是相关的。; [例A2]试把下表所示的频数分布列联表,转
化为相对频数条件分布列联表和自变量受到控制
的相对频数条件分布列联表,并加以相关分析。 ; 上表显示,大学以上文化程度和大学以下文化程度同样
各有60%的人参与投票,40%的人弃权,并没有因为受教育
程度不同,而使参与投票的行为有所不同。因此,此时的两
个变量是不相关的,或者说是独立的
文档评论(0)