关联性分析.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
相关与回归 9 关联性分析 医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。相关与回归就是用于研究和解释两个变量之间相互关系的。 两个连续性随机变量间的线性相关分析 散点图:为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。 为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。 相关的类型 ★正相关 ★负相关 ★完全正相关 ★完全负相关 ★称零相关 Pearson相关 呈双变量正态分布的随机变量x、y间的相关关系可以用pearson相关系数r 表示(pearson correlation coefficient,也称积矩相关系数, product-moment correlation coefficient) 相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。 例 一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关? 分析问题:目的、变量、关系 ∑X=534 ∑Y=99.2 ∑ X2=9876 ∑ Y2=324.8 ∑XY=1750 N=31 待产妇尿雌三醇含量与产儿体重关系 问题:我们能否得出结论说明待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。为什么? 相关系数的假设检验 上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数(?)为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数?=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。 上一章回归分析中实例:r=0.6807 tr= =2.6284 总体相关系数?的区间估计 直线相关应用中应注意的问题 相关分析前应先画散点图。 线性相关要求两个变量都是随机变量,而且仅适用于两元正态分布资料。 相关只是对两变量的数字特征进行了分析,不能因此推断两变量在生物学上有任何联系,也不一定是因果关系。 出现异常点时慎用相关。 分层资料盲目合并易出假象。 前面我们讨论了待产妇尿中雌三醇含量和产儿体重之间的关系,知道了二者之间成正相关。那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?或产儿的体重可能在什么范围内呢?还有,随着身高的增加,体重也在增大,它们之间也成正相关关系。那么,身高每增加1厘米,体重增加多少克呢?上面的相关关系分析不能提供给我们需要的答案。这些要用直线回归的方法来解决。 第六节 等级相关(秩相关) 当两个变量不服从正态分布时、分布未知或原始数据为等级资料时,可以采用等级相关分析(秩相关)。 Spearman 相关系数的估计和检验 两个分类变量间的关联性分析 行为类型与冠心病的关系 行为类型(属性A) 冠心病(属性B) 有 无 合计 类型A

文档评论(0)

精品文库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档