2014生物统计学复习提纲-ch11-20….docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物统计学复习提纲(2013) 第1章 相关和回归 回归分析(regression analysis)用于研究某个变量对另一个变量的影响强度。 回归直线的方程为: a是总体截距的估计值,b是总体斜率的估计值。 回归直线一定经过“均数”点,因此 相关分析(correlation analysis)用于研究变量间联系的密切程度。 相关系数r,又称积差相关系数,它是变量相关的密切程度和方向的指标。 相关系数的假设检验: 如果进行F检验, 。 直线回归与直线相关的区别与联系 1. 区别 (1)资料要求: 回归:Y为正态随机变量,X为选定变量。 相关:X、Y服从双变量正态分布。 (2)应用: 回归——由一个变量值推算另一个变量值。 相关——只反映两变量间互依关系。 (3)回归系数有单位,相关系数无单位。 2. 联系 (1)方向一致: r与b的正负号一致。 (2)同一资料假设检验等价: tr=tb。 (3)r与b可相互推导获得, 。 lXX:x的离均差平方和; lYY:y的离均差平方和。 (4)用回归解释相关 决定系数 SS回(回归平方和)是y的变异中由于引入了自变量x而使总平方和减小的部分。SS回越接近总平方和,则r2越接近1,引入相关自变量的效果越好。r2x可以解释因变量y变异的百分比。 如果X与Y有回归关系,则一定存在相关关系,但是若存在相关关系,则不一定存在回归关系。 当X、Y不服从双变量正态分布时,使用秩相关(spearman)分析。 在两个变量均属于有序变量时,使用Kendall’s相关分析。 第12章 多元线性回归 多元线性回归是研究多个自变量X1、X2、...、Xi与一个因变量Y间是否存在线性关系(依存关系),并用多元线性回归方程来表达这种关系。 多元逐步回归要求回归方程中包含所有对因变量Y作用显著(可以显著减少Y的变异)的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。 1、向前引入法(Forward); 2、向后剔除法(Backward); 3、逐步引入—剔除法(Stepwise)。 如果不同的方法选择到的最终模型不同,以残差平方和(Sum of squares of residues)最小的模型较优。 在回归方程中,虽然各自变量对因变量是有意义的,但由于某些自变量彼此相关,这种自变量彼此间的相关叫做存在共线性问题,会给评价自变量的贡献带来困难。 共线性的处理办法: 1、剔除不重要的有共线性问题的自变量,但要注意专业的合理解释。 2、增加样本含量。 3、岭回归分析或者主成分回归分析。 第1章 分类资料的回归分析 含p个自变量的二分变量Logistic回归模型: p为某事件出现的概率。 p/(1-p): 某事件出现的概率与不出现概率之比值称为比数或优势(odds)。 logistic模型应用条件: 应变量为二分类变量或者是某事件的发生率; 自变量与logit(p)之间为线性关系; 残差合计为0,且服从二项分布; 各观测值之间独立。 对回归系数β的H0: β = 0 vs HA: β ≠ 0。 如果p 0.05,拒绝H0,即变量x的引入对y发生(y=1)的机率值变化有显著影响。 回归系数β的解释 系数的正负值:正(负)系数表示随自变量的增加因变量logit值的增加(减少)。 二分类自变量:系数为比数比(OR)的自然对数值。 多分类自变量:以第i类作参照,比较相邻的或相隔的两个类别的eβ变化量。 连续型自变量:当自变量改变一个测量单位时,比数比改变量为eβ。 Probit模型: 用于研究药物浓度与动物死亡率的关系,计算药物半数致死剂量(LD50)。 Probit回归是在正态分布的理论基础上进行的,而Logistic回归是建立在二项分布的基础上的。但对于同一资料,Probit回归与Logistic回归的结果非常接近。 检验两处理的LD50是否相等,看Potency Ratio)的95%CI是否包括数值1.0。 第1章 聚类分析 聚类分析:根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。 假使有n个样品,每个样品由p个变量描述,既可以对变量进行分类,也可以对样品进行分类。 对变量的聚类称为R型聚类(Clustering for variables),而对观测值聚类称为Q型聚类(Clustering for individuals)。这两种聚类在数学上是对称的。 研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数;常用的相似系数有:夹角余弦与相关系数。 另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离。距离较近

文档评论(0)

创业文库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档