网站大量收购独家精品文档,联系QQ:2885784924

医学统计学06.ppt

  1. 1、本文档共126页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医学统计学06.ppt

医学统计学(06) ——双变量相关与回归 季聪华 2012.11.01 又称简单相关或Pearson相关分析,用于研究两个数值变量间是否存在线性相关关系,以及线性关系的方向和密切程度的的统计分析方法。 直线相关用于双变量正态分布资料,一般说来,两个变量都是随机变动的,不分主次,处于同等地位。 相关关系示意: 相关关系示意: 直线相关的应用条件 相关系数 (r) 直线相关分析的基本步骤 总体相关系数的假设检验 相关关系密切程度的判断 【例1】11名糖尿病患者的血清总胆固醇含量( minol/L)与空腹血糖(mmol/L)的测量值如下,试进行直线相关分析。 分析步骤 (1)满足双变量正态性: 小样本资料,以专业知识为主来确定资料正态性。 (2)绘制散点图: 以总胆固醇含量为 X 轴,血糖为Y轴绘制散点图,看二者的直线趋势。 SPSS软件操作 第1步:定义变量 第2步:输入原始数据 第3步:作散点图(1) 注意事项 (1)并非任何有联系的两个变量都属线性联系,在计算相关系数之前首先利用散点图判断两变量间是否具有线性联系,曲线联系时不能直接用直线相关分析。 注意事项 (2)有些研究中,一个变量的数值随机变动,另一个变量的数值却是人为选定的。如研究药物的剂量—反应关系时,一般是选定 n 种剂量,然后观察每种剂量下动物的反应,此时得到的观察值就不是随机样本,算得的相关系数 r 会因剂量的选择方案不同而不同。故一个变量的数值为人为选定时不宜作直线相关分析。 (3)作相关分析时,必须剔除异常点。异常点即为一些特大特小的离群值,对正确评价两变量直线相关有较大影响。所以,应及时复核检查,对由于测定、记录或计算机录人的错误数据,应予以修正或剔除。 (4)相关分析要有实际意义,两变量相关并不代表两变量间一定存在内在联系,需要结合专业上的解释。如根据儿童身高与小树树高资料算得的相关系数,是由于时间变量与二者的潜在联系,造成了儿童身高与树高相关的假象。 (5)分层资料不要盲目合并作直线相关分析,否则可能得出错误结论。 秩相关 秩相关( rank correlation )又称等级相关,是一种非参数统计方法,适用于资料不是正态双变量或总体分布未知,数据一端或两端有不确定值的资料或等级资料。 秩相关分析的方法有多种,Spearman等级相关最常用,它是用等级相关系数 rs ,来说明两个变量间相关关系的密切程度与相关方向的。 秩相关分析的基本步骤 rs 的计算公式: 当相同秩次较多时的校正公式: SPSS软件操作 第1步:定义变量 第2步:输入原始数据 如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋势,那么就可以用一个直线回归方程来定量地描述它们之间的数量关系,这就是直线回归分析。 直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为反应变量(dependent variable)和自变量(independent variable),习惯上分别用Y和X来表示。 直线回归的应用条件 回归模型的前提假设 线性回归模型的前提条件是: 线性(linear) 独立(independent) 正态(normal) 等方差(equal variance) 用四个英语单词的首写字母表示,恰好为“LINE”。 (l)所谓线性是指反应变量Y的总体平均值与自变量X呈线性关系。如果该条件不成立,即总体是非线性的,而我们却用线性模型拟合,势必导致所获得的回归方程、检验、预测与估计等结果失去意义。通常绘制(Xi,Yi)的散点图,通过观察散点的形态来判断线性假设是否成立。 如果发现数据违背该线性的假定,可寻求最能适合客观实际的非线性模型。 (2)独立是指任意两个观察值互相独立。如果该条件不成立,名义上有n个个体的资料,实际上提供的信息却没有这么多,导致回归估计值不够准确和精确。通常利用专业知识来判断这项假定是否满足。 (3)正态性假定是指线性模型的误差项服从正态分布。如果该条件不成立,在正态分布假设下对β的假设检验和置信区间估计的结论均无效。 如果数据不满足正态性假设首先考虑对原始数据进行变量变换,使其正态化后进行线性模型拟合与分析。 (4)等方差性是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。如果这一条件不满足,回归参数的估计有偏性,置信区间估计及检验的结论均无效。通常可采用(Xi,Yi)的散点图或残差的散点图判断等方差性。 如果数据不满足等方差性,可试用变量变换使其方差齐性化后再进行回归分析,或者采用加权回归的办法。 回归系数 b 和截距 a 的计算 直线回归分析的基本步骤 回归系数的统计推断 回归系数的假设检验 回归系数的假设检验 r 检验代替 总体回归系数的区间估

文档评论(0)

heroliuguan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档