- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8章 相关与回归.doc
第8章 相关与回归分析
本章的主要目的:
理解相关与回归的基本思想。
掌握一元线性回归分析技术。
掌握相关分析技术。
了解多元线性回归和非线性回归技术。
8.1 相关与回归分析的基本概念
1. 相关关系与函数关系
客观现象之间的数量联系存在着两种不同的类型:函数关系与相关关系。
当一个或几个变量取一定值时,另一个变量有确定的值与之对应,我们称这种关系为确定性的函数关系。自变量与因变量。
当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定范围内变化,变量间的这种相互关系,称之为具有不确定性的相关关系。
函数关系与相关关系在一定条件下是可以相互转化的。
2. 相关关系的种类
按不同的标志可以对相关关系进行分类:
相关程度:完全相关、不完全相关和不相关。
相关方向:正相关与负相关。
相关形式:线性相关与非线性相关。
变量多少:单相关、复相关与偏相关。
相关性质:真相关与虚相关。
3. 相关关系与回归分析
相关分析和回归分析是研究现象之间相关关系的两种基本方法。
相关分析就是用一个指标来表明现象间相互依存关系的密切程度,研究的是变量间相关的方向和相关的程度。回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系,研究的是变量间相关关系的具体形式,即确定一个相关的数学方程式。
只有当变量间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。
定量分析必须在定性分析的基础上进行,二者必须有机结合。相关分析和回归分析只是从数量上反映现象间的联系形式及密切程度;现象间内在联系的判断和因果关系的确定必须以专业知识和实践经验来进行分析研究。
4. 相关表与散点图
相关表是反映变量间相关关系的统计表。表8-2是表8-1原始数据的表。
相关图即散点图,将两变量间相对应的变量值在坐标图上描绘出来,用来两变量间的相关关系的图形。图8-1。这是一个常用的基本工具。
8.2 相关分析
⑴假设:我们所研究的数据总是成对的,(x,y)组成的样本是一个随机样本;成对数据(x,y)满足二元正态分布。
⑵散点图。在进行相关分析之间我们总是对成对数据的散点图进行考察。看一些实例。
实例一:散点图。
⑶相关系数计算。我们只讨论单线性相关系数,即通常所说的相关系数。一般用ρ表示总体的相关系数,用r代表样本的相关系数。
ρ= Cov(X,Y)/(VAR(X)VAR(Y))
总体相关系数反映两变量之间线性相关程度的一种特征值,表现为一个常数。
r的定义公式见8.82和8.86。
样本相关系数是根据样本观察值计算的,抽取的样本不同,其具体数值也不同,样本相关系数是总体相关系数的一致估计量。
实例二:下表6次上餐馆的成对数据:
账单(元) 33.46 50.68 87.92 98.84 63.60 107.34 小费(元) 5.50 5.00 8.08 17.00 12.00 16.00 ⑷r的解释。样本线性相关系数r代表什么含意?
先看r的基本性质:
-1≤r≤1。
若某个变量的所有值都转化为一个不同的尺度,r的值不改变。
r的值不受x或y选择的影响,交换所有x和y的值,r不变。
r度量的是线性相关性的强度,并不是为了度量一种非线性的关系而设计的。
如果r接近于0,就认为在x和y之间不存在显著的线性相关,但如果r接近-1或1,就认为存在显著的线性相关。一般有一个临界值表可供查询。如上例中查得对于n=6,临界值分别是0.811(对α=0.01)和0.917(对α=0.05),其解释是:对于6对数据以及在x和y之间不存在线性相关的情况,有5%的可能性算出的线性相关系数r的绝对值将大于0.811;对于n=6和没有线性相关的情况,r的绝对值将大于0.917的可能性为1%。
我们说有低于5%的可能性不存在线性相关,也就是说,在账单和小费之间存在显著的线性相关。
⑸关于相关的普遍错误。在解释相关的结果中常出现的三种普遍的错误来源:
认为相关就意味着因果关系。
基于平均的数据所引起的。
相关的性质,也就是说既使不存在显著的线性相关,它们之间也可能存在另一种关系。
⑹相关系数的检验。要明确我们是用样本r来估计总体的ρ,所以要进行检验。这里有两种方法来检验,以确定两个变量之间是否存在一种显著的线性相关性。
检验线性相关的具体步骤见图。
方法一:检验统计量是t。
t=r/((1-r2)/(n-2))?
自由度是n-2。
方法二:检验统计量r。
实例三:对上例中的样本数据检验假设:在账单和小费数额之间存在线性相关。
8.3 一元线性回归分析
本节我们只考察线性关系,成对数据满足二元正态分布。
1. 标准的一元线性回归模型
⑴总体回归函数。在回归分析中,最简单的模型就是只有一个因变量和一个自变量的线性回归模型
文档评论(0)