- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计学教程︰相关与回归
相关与回归 医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。 变量之间的关系: 乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系; 有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。 相关与回归就是用于研究和解释两个变量之间相互关系的。 主要内容 第一节 直线相关 第二节 直线回归 第三节 注意事项 为研究父亲与成年儿子身高之间的关系,皮尔逊测量了1078对父子的身高。 把1078对数字表示在坐标上。X上的数代表父亲身高,Y上的数代表儿子的身高 1078个点形成图形是一个散点图。 散点图 为了确定相关变量之间的关系,收集一些数据,这些数据是成对的;然后在直角坐标系上描述这些点,这一组点集称为散点图。 相关的类型 ★正相关 ★负相关 ★完全正相关 ★完全负相关 ★称零相关 相关系数 样本的相关系数用r表示 r的值在-1和1之间; r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱; 正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。 一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关; 于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。 问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关? 分析问题:总体-样本、 目的、变量、关系 ∑X=534 ∑Y=99.2 ∑ X2=9876 ∑ Y2=324.8 ∑XY=1750 N=31 问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61。为什么? 相关系数的假设检验 上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。 因为,总体相关系数(?)为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。 这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。 直线相关的意义 在确实存在相关关系的前提下(??),如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。 一般说来,当样本量较大,并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。 雌三醇含量与产儿体重有相关关系: 如果知道了一位待产妇的尿雌三醇含量 能推断出产儿的体重吗? 能预测产儿的体重可能在什么范围内? 这要用直线回归的方法来解决。 知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。 实际上,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归。 回归方程 回归系数 回归直线的描绘 根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。 回归直线一定经过(0,a ),( )。 这两点可以用来核对图线绘制是否正确。 与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。 所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用β表示。 采用t检验方法 回归系数的假设检验 H0:β=0 H1:β≠0 α=0.05 计算统计量: t=4.14; ?=31-2=29,t 0.05(29)=2.045 计算概率值P: P0.05 做出推论:按?=0.05检验水准,拒绝H0,接受H1认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回
文档评论(0)