04-回归分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物医学数据挖掘 上海交通大学医学院 计算机应用教研室 龚著琳 回顾 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 第三章 回归分析 一.功能目的 二.方法/模型 1.线性回归 2.Logistic回归 3.ANN,人工神经网络 4.回归树/决策树 三.回归分析应用实例 第三章 回归分析 一.功能目的 揭示响应变量随一个或几个自变量的变化而发生响应的规律 多种形式:线性/非线性、ANN、决策树 结果:模型 作用:预测型 一般过程 第三章 回归分析 一.功能目的 二.方法/模型 1.线性回归 2.Logistic回归 3.ANN,人工神经网络 4.回归树/决策树 三.回归分析应用实例 一元线性回归 二.方法/模型 线性回归(用公式表示规律) 样本-变量间的定量关系 性能:残差最小 变量系数:影响的显著性 简单明了、容易计算 一元线性回归 几种模型 (1)线性函数形式 (2)二次函数形式 (3)高次方程形式 (4)指数函数形式 分类型变量在回归方程中如何使用? 分类型变量(二值、排序型除外) 转变为数值型(增加变量) 例:属性”分布形式”有5个取值 第三章 回归分析 一.功能目的 二.方法/模型 1.线性回归 2.Logistic回归 3.ANN,人工神经网络 4.回归树/决策树 三.回归分析应用实例 Logistic回归 多元线性回归 y=β0+β1X1+β2X2+…+βpXp y为数值变量 若y为分类变量:发生/未发生,阳性/阴性等,则以上模型不适用 用发生的概率P来代替 y p=β0+β1X1+β2X2+…+βpXp Logistic回归 Logistic回归是一种非线性的模型 适用于:应变量为二值(1和0) 如:发生/未发生、阳性/阴性、有效/无效 计算P(事件发生/不发生的概率) Logistic回归 Logistic 回归模型为:概率模型 ln[P/(1-P)]=β0+β1X1+…+βpXp 或: exp(β0+β1X1+…+βpXp) P = ───────────── 1+ exp(β0+β1X1+…+βpXp) 其中:P为发生的概率 X1, X2, …, Xp为影响疾病发生的因素 Logistic回归 等式左边 变化范围 P 发生的概率 0≤ P≤1 1-P 不发生概率 0≤ P≤1 p/1-p 比值(odds ratio) 0≤ p/1-p+∞ ln(p/1-p) 对数比 (ratio) -∞ln(p/1-p)+∞ Logistic回归 实例1: 冠心病coronary artery disease(y/n):与年龄、体重、性别、吸烟史、血压等因素的关系 Logistic回归例 实例2:糖尿病人数据 血脂、血压、血糖 1 异常 0正常 心血管终点事件(endpoint) 1 发生 0未发生 有何影响?如何影响? 讨论 (1)采集数据:10524条记录 15.47% 1628例 发生终点事件 84.53% 8896例 未… 原始数据 数据整理 (2) Logistic回归模型 P31 式3.7 得到 式3.8 讨论 (3)测试样本的测试结果: (4)如何解释上述回归模型? 血脂 0.161,权重最小 血压 0.992,… 最大 血糖 0.444 回归方程 优点:表达清晰,计算方便。 问题: (1)假定各因素间无相互作用,是独立的。 (2)不能反映因素间的相互作用(协同或拮抗)。 第三章 回归分析 一.功能目的 二.方法/模型 1.线性回归 2.Logistic回归 3.ANN,人工神经网络 4.回归树/决策树 三.回归分析应用实例 生物神经元 人工神经网络 Artificial Neural Networks,ANN 描述非线性依赖关系 ANN的结构 输入神经元:自变量 输出神经元:应变量 中间神经元:由设计者决定 性能 激励函数 训练的结果:偶合系数或权重(weight) 人工神经网络 人工神经网络 ANN的输入 通常输入值限制在[0,1] 数值型:数据归一化(最小-最大归一法P23,适合ANN) 分类型:转换为亚变

您可能关注的文档

文档评论(0)

bodkd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档