数据挖掘配套全册教学课件.ppt

  1. 1、本文档共230页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 回归树的生成 树的生成 根节点 分支 树的修剪 去掉一些可能是噪声或者异常的数据 关键:分支节点的选择 * 例:回归树创建 问题:起始点如何选取? * 例:回归树创建 根结点的选择:正确、简洁 是否有发烧 腺体肿大 * 例:回归树的建立(定量) 例3.3 根据受检者的检验结果,确定该受检者是否可以戴隐形眼镜,适合戴硬性的还是软性的隐形眼镜。P43,表3.1 * 例:回归树的建立(定量) 例3.3 P43,表3.1 根结点的选择依据:同类占样本最多者 分支中的样本归属不是同一个类别,需要再分叉 ? 不推荐:5 硬性:8 软性:8 * ? 特征属性不能重复使用 有可能出现分到最后仍不能分的情况 ? * 分支原则:以占同类样本数的比例最高项作为分支依据 层次、叶子不宜过多 * 最终形成的结果(产生式规则) IF 泪流量=减少 THEN 不推荐 ELSE IF 散光=无 THEN 推荐软性镜片(误差12.50%) ELSE IF 视力=近视 THEN 推荐硬性镜片(误差14.29%) ELSE IF 老视=未老视 THEN 推荐硬性镜片(误差0) ELSE 不推荐(误差0) * 回归树使用: 对未知数据进行预测 回归树的特点 可解释性好 符合逻辑推理过程,易接受 对学习样本过于敏感 * 第三章 回归分析 一.功能目的 二.方法/模型 1.线性回归 2.Logistic回归 3.ANN,人工神经网络 4.回归树/决策树 三.回归分析应用实例 * 应用一:子宫颈癌患者生存率, P44 应用二:乳腺癌患者预后分析, P48 数据内在特征及 研究目的的需要 * 数据挖掘-建立模型 logistic回归 人工神经网络 决策树 * 模型的性能比较一 决策树模型性能优于其他两种模型。 人工神经网络模型的灵敏度和预测正确率均比logistic回归模型好,其预测性能次之。 logistic回归模型的性能相对较差 三种模型各指标的标准差均不大,说明各模型的稳定性较好 * 性能比较二 哪些因素对结果影响较大? 哪些因素对结果影响不大? * 灵敏度(sensitivity)分析 假设:N个样本,3个特征属性F1/F2/F3 (1)分别计算各个特征属性的均值/标准差 (2)将(m1,m2,m3)作为输入端,模型输出结果为M (3)若要测试F1对应变量的影响 则:输入(m1+?1*10%, m2, m3),…… 输出M+?M1,计算 (4)分别计算 可比较3个特征属性对输出的影响结果 * 第三章 回归分析 一.功能目的 二.方法/模型 1.线性回归 2.Logistic回归 3.ANN,人工神经网络 4.回归树/决策树 三.回归分析应用实例 小结 第四章 分类 上海交通大学医学院 生物信息学平台 龚著琳 * 内容 一、分类的功能 二、分类的方法 三、分类的应用1 四、分类的应用2 * 理解回归输出 * X(剂量) Y(降压幅度) 5 10 10 13.5 15 15.5 20 17 25 18 非线性回归转换为线性 原始数据: 转换后: X’=lnX Y(降压幅度) 1.609 10 2.303 13.5 2.708 15.5 2.996 17 3.209 18 * 分类型变量在回归方程中如何使用? 哑变量 分类型变量(二值、排序型除外) 转变为数值型(增加变量) 例:属性”分布形式”有5个取值 * 第三章 回归分析 一.功能目的 二.方法/模型 1.线性回归 2.Logistic回归 3.ANN,人工神经网络 4.回归树/决策树 三.回归分析应用实例 * Logistic回归 多元线性回归 y=β0+β1X1+β2X2+…+βpXp y为数值变量 若y为分类变量:发生/未发生,阳性/阴性等,则以上模型不适用 用发生的概率P来代替 y p=β0+β1X1+β2X2+…+βpXp * Logistic回归 Logistic回归是一种非线性的模型 适用于:应变量为二值(1和0) 如:发生/未发生、阳性/阴性、有效/无效 计算P(事件发生/不发生的概率) * Logistic回归 Logistic 回归模型为:概率模型 ln[P/(1-P)]=β0+β1X1+…+βpXp 或: exp(β0+β1X1+…+βpXp) P = ───────────── 1+ exp(β0+β1X1+…+βpXp) 其中:P为发生的概率 X1, X2, …, Xp为影

文档评论(0)

精品文库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档