高级统计学复习课.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高级统计学复习课 主要内容 多元线性回归分析 Logistic回归分析 生存分析 判别分析 聚类分析 主成分分析与因子分析 典型相关 多元线性回归分析 自变量为x1, x2, ?, xm a为截距 βi称为偏回归系数 称为 y 的估计值或预测值 1 多元线性回归模型 2 方程的假设检验及其评价 假设检验: (1) 整个模型的假设检验 方差分析法 决定系数 复相关系数 (2) 偏回归方程的假设检验 (二)自变量的假设检验 (1)偏回归平方和 (2) t检验法 3 标准偏回归系数 第二节 自变量选择方法 全局择优法 逐步回归 前进法 后退法 逐步向前法 第三节 多元线性回归注意问题 (1)自变量为连续变量的情型 (2)自变量为两分类变量的情形 (3)自变量为多分类变量的情形 (4)自变量为等级变量的情形 指标的数量化 样本含量 逐步回归 多重共线性 偏相关系数 变量间的交互作用 残差分析 4 多重共线性(multicollinearity) 自变量间的高度相关,即一些自变量间存在较强的线性关系。 多重共线性对方程的影响. Logistic回归模型 回归系数的解释 1 回归系数?的解释: 两分类变量 多分类变量 等级变量 连续性变量 任一建模过程均应从详细的各变量的单因素分析开始。 在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选, 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。 实际操作 模型评价: 对每个自变量进行检验; 回归方程进行检验。 影响logistic回归可能的原因 生存分析 (1) 生存时间 (2)失效事件 (3)截尾值: (1) 描述生存过程:研究生存时间的分布特点,估计生存率、生存率曲线(K-M)等。 (2) 比较生存过程: 在获得生存率及其标准误的估计值后,进行两组或多组生存率比较。 Log-rank检验 生存分析的主要内容 生存过程的影响因素分析: Cox回归方法 根据判别对象的若干观测指标(因素)判定应属于哪一类? 训练样本 判别函数 判别分类 判别函数考核 回代性考核 前瞻性考核 判 别 分 析 几种判别方法比较: Fisher准则判别:类间差异大、类内差异小; 构建线性判别函数;计量资料。 最大似然判别法:独立事件概率乘法定理; 以概率为依据;计数资料。 Bayes公式判别: Bayes公式;以概率为依据; 计数资料。 Bayes准则判别:个体归属于某类的后验概 率最大;构建线性判别函数后计算后验 概率;以概率为依据;计量资料。 逐步判别:先以类间差异大、类内差异小原 则筛选变量;后按Bayes准则构建线性判 别函数,计算后验概率;以概率为依据; 计量资料。 聚类分析 相近的聚为一类(以距离表示,Q型聚类,样品聚类) 相似的聚为一类(以相似系数表示,R型聚类,指标聚类) 系统聚类的基本步骤 构造n个类,每个类包含且只包含一个样品。计算n个样品两两间的距离,构成距离矩阵,记作D0。 合并距离最近的两类为一新类。 计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。 画聚类图。 决定类的个数,及各类包含的样品数,并对类作出解释。 动态聚类(快速聚类,逐步聚类) 当待分类的样品较多时, (1)计算量大; (2)聚类图十分复杂; (3) 用系统聚类法,样品一旦归类就不再变动了。 动态聚类思路:首先确定几个有代表性的样品(凝聚点)作为各类的核心,然后将其它样品逐一归类,归类的同时按某种规则修改各核心直至分类合理为止。 判别分析与聚类分析的差异: 判别分析必须事先已知多种判别的类型,并且要有一批来自各已知类别的训练样品建立判别函数,然后用这个函数去对未知类别的新样品进行判别归类。 聚类分析恰好相反,事先不知道客观事物的分类,需根据各个聚数量关系及表现进行聚类。 主成分分析 变量间的相关:信息重叠 变量太多:降维分析(简化) 试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据进行最佳综合简化,即高维变量空间进行降维处理。 变量间的关系复杂:综合分析 主成分的贡献率和累积贡献率 1)贡献率: 2)累积贡献率: 因子分析 从分析多个原始指标的相关入手,找到支配这种相关关系的有限个不可测的潜在变量间。这些潜变量解释原始指标之间的相关性或协方差关系的多元统计方法。 (1) 公共度 (2)因子贡献及因子贡献率 (3)因子载荷及因子载荷阵 因子旋转 典型相关分析

文档评论(0)

zilaiye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档