教师版变量间的相关关系与统计案例讲义.docx

教师版变量间的相关关系与统计案例讲义.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Page

PagePAGE10of14

变量间的相关关系与统计案例

一、基础知识

(一)、线性回归方程

两类变量关系类型:函数关系和相关关系,它们的区别在于是确定性关系还是非确定性关系通过散点图可以判断两个变量之间是否具有相关关系:

①如果所有的样本点都落在某一函数曲线上,则变量之间具有函数关系;

②如果所有的样本点都落在某一函数曲线附近,则变量之间具有相关关系;

③如果所有的样本点都落在某一直线附近,则变量之间具有线性相关关系

正相关与负相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关;如果一个变量的值由小变大时,另一个变量的值却由大变小这种相关称为负相关.利用散点图判断正、负相关:

①如果散点图中的点散布在从左下角到右上角的区域内,称为正相关;

②如果散点图中的点散布在从左上角到右下角的区域内,称为负相关

回归直线:设x和y是具有相关关系的两个变量,且对应于n个观测值的n个点大致分布在一条直线的附近,若所求的直线方程为 y? =a+bx, 则

??n xy?nxy ?n

?

(x?x)(y?y)

b?i?1

i i i i

i?1

,a?y?bx,我们将这个方程叫做回归直线方程,

?n

i?1

x2?nx2

i

?n

i?1

(x?x)2

i

a,b叫做回归系数,相应的直线叫做回归直线

使样本数据点到回归直线的距离的平方和Q=(y-bx-a)2+(y-bx-a)2+…+(y-bx

-a)2为

1 1 2 2 n n

最小的方法叫最小二乘法:.回归方程的截距a和斜率b构成的点?a,b?应该是函数Q??,??

的最小值点.

求回归直线方程的一般步骤:①作散点图,判断散点是否在一条直线附近.

②如果散点在一条直线附近,利用公式计算a,b,并写出回归直线方程,

③利用回归方程,由一个变量的值,预测或控制另一个变量的取值.

线性回归方程y?=bx+a过定点(x,y)

(二)线性相关与独立性检验

相关系数:(1)对于变量x与y随机抽取到的n对数据(x,y), (x,y),:…,(x,y),

1 1 2 2 n n

iii i?ni?1(

i

i

i i

?n

i?1

(x ?x)2?ni

i?1

?

i?1

(y?y)2

i

(?n

i?1

x2?nx2)(?n y2?ny2)

i

i

i?1

i?1

x)(y

y)

?n xy

nxy

(2)r具有以下性质:

当r0时,表明两个变量正相关;当r0时,表明两个变量负相关;

当|r|≤1,并且|r|越接近1时,两个变量的线性相关程度越强;当|r|越接近0时,两个变量的线性相关程度越弱;

相关性检验的步骤:

①作统计假设②根据小概率0.05与n-2在附表中找出r的一个临界值r

0.05

③根据样本相关系数计算公式算出r值

④用统计判断,如果|r|?r

0.05

,那么可以认为y与x之间的线性相关关系不显著,从而接

受统计假设.如果|r|?r

0.05

,表明一个发生的概率不到5%的事件在一次试验中竟发生了.

这个小概率事件的发生使我们有理由认为y与x之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y与x之间具有线性相关关系.

独立性检验

2×2列联表:统计被调查者的两种状态,每种状态又分两种情况的调查结果表.对于性别变量,其取值为男和女两种,这种变量的不同值表示个体所属的不同类别,像这类变量称为分类变量.

通过三维柱图和二维条形图,可以粗略判断两个分类变量是否有关系,但是这种判断无法精确给出所得结论的可靠程度.

Y1Y2XX11合计aca+cb

Y

1

Y

2

X

X

1

1

合计

a

ca+c

b

db+d

合计

a+bc+d

n=a+b+c+

d

统计中有一个有用的(读做“卡方”)统计量,它的表达式是:

K2???n(ad ?bc) ,

(a?b)(c?d)(a?c)(b?d)

经过对统计量分布的研究,已经得到了两个临界值:3.841与6.635。

P?K2?k?k当根据具体的数据算出的k3.841时,有95%的把握说事件A与B

P?K2?k?

k

0.50

0.40

0.25

0.15

0.10

0.05

0.02

0.0

文档评论(0)

mph + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体上海谭台科技有限公司
IP属地湖北
统一社会信用代码/组织机构代码
91310115MA7CY11Y3K

1亿VIP精品文档

相关文档