生物医学数据挖掘数据预处理.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物医学数据挖掘数据预处理.ppt

生物医学数据挖掘 上海交通大学医学院 计算机教研室 龚著琳 回顾 第一章 概论 四. 性能评价 1.样本的组织 2.预测型模型的性能评价 第二章 数据采集与准备 一.数据的采集和组织 1. 数据采集和管理 2. 数据的组织 3. 数据的类型 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 数据预处理 1.目的 ① 提高数据的质量 处理不好的数据 降低维数 ② 数据质量的表现 数据的完整性 数据的合理性 数据的一致性 ③ 数据质量问题(脏数据) 数据缺失: 噪声或溢出:包含错误或孤立点 如:年龄=-10 不一致: 在代码或名称上存在差异 如:年龄=42 与 生日=“1997/03/07 ” No quality data, no quality mining results! ④ 为什么有脏数据 缺失 噪声:随机错误和偏差 不一致 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 数据预处理 2.数据的分布状态 用统计学工具可解决,P18 ① 均值 ② 中值 ③ 众数 ④ 半程位 ⑤ 全程范围 ⑥ 四分位数 ⑦ 四分位范围 ⑧ 标准差 均值和中值 mean median 均值mean:对一组数据最常用的度量指标 但均值对溢出敏感,因此,中值median或截除均值trimmed mean也是常用指标 全程范围和标准差 Range Variance 全程范围Range:最大值和最小值之差 变异variance或标准差standard deviation:各数值对均值的离散程度 但对溢出敏感, 因此,也考虑其他的指标 例 P19 收缩压,排序 数据预处理的形式 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 5. 数据精简 数据预处理 3.数据清洗 任务:填写缺失值,平滑噪声数据 ①数据缺失 直接删除记录 丢弃属性 如何弥补? 数据清洗 缺失数据如何弥补? 人工填写缺失值 用常量填写缺失值 取属性均值 取同类均值 用最可能的值来填充缺失值 数据预处理 3.数据清洗 ② 数据噪声 随机性干扰 波动 分组平滑 均值平滑 中值平滑 边界平滑 回归平滑 聚类平滑 分组平滑 例如:一位受试者检测得的收缩压原始数据序列是:129,131,124,136,131,132,138,134,139,……。(P21) 分组平滑 例如:排序后的数据是:4,8,9,15,21,21,24,25,26,28,29,34。 回归平滑 聚类平滑 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 数据预处理 5.数据变换 ①目的:原始数据变换到合适的形式 ②类型变换 分类型-数值型(神经网络) 数值型-分类型(决策树) 数据预处理 讨论 例:若舒张压原始数据为:90,110,105,140,220,138,182,205,105,110 则,进行下列数据变换后的新数据是? (1)十进计数法 (2)最小-最大归一法 (3)Z-Score (4)对数归一化 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 6. 数据精简 (1)目的:减少冗余,提高模型性能 (2)样本记录数的选择 精简冗余、保留典型 随机选取 P24 典型性分数 弥补不平衡数据 讨论 学习样本数 N 100000例,其中: N1:15% 15000 5年内死亡 N2:85% 85000 生存 则,如何选择样本? 从模型训练的结果看,学习样本中5年内死亡与生存接近1:1最好。 欠抽样undersampling 从N2中随机选部分样本,适用总体样本较多时 过抽样oversampling 从N1中随机选部分样本,补充到N1中,适用总体样本较少时 讨论 欠抽样 undersampling 过抽样 oversampling 数据预处理 6. 数据精简 (3)样本

文档评论(0)

我的文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档