生物医学数据挖掘数据预处理.ppt

下载文档 降价啦

4
0
约2.67千字
约 36页
2015-12-03 发布于湖北
举报
版权申诉
保障服务

生物医学数据挖掘数据预处理.ppt

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

生物医学数据挖掘数据预处理.ppt

生物医学数据挖掘上海交通大学医学院计算机教研室龚著琳回顾第一章概论四. 性能评价 1.样本的组织 2.预测型模型的性能评价第二章数据采集与准备一．数据的采集和组织 1. 数据采集和管理 2. 数据的组织 3. 数据的类型第二章数据采集与准备一．数据的采集和组织二．数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简数据预处理 1.目的 ① 提高数据的质量处理不好的数据降低维数 ② 数据质量的表现数据的完整性数据的合理性数据的一致性 ③ 数据质量问题（脏数据）数据缺失：噪声或溢出：包含错误或孤立点如：年龄＝-10 不一致: 在代码或名称上存在差异如：年龄=42 与生日=“1997/03/07 ” No quality data, no quality mining results! ④ 为什么有脏数据缺失噪声：随机错误和偏差不一致第二章数据采集与准备一．数据的采集和组织二．数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简数据预处理 2.数据的分布状态用统计学工具可解决，P18 ① 均值 ② 中值 ③ 众数 ④ 半程位 ⑤ 全程范围 ⑥ 四分位数 ⑦ 四分位范围 ⑧ 标准差均值和中值 mean median 均值mean：对一组数据最常用的度量指标但均值对溢出敏感，因此，中值median或截除均值trimmed mean也是常用指标全程范围和标准差 Range Variance 全程范围Range：最大值和最小值之差变异variance或标准差standard deviation：各数值对均值的离散程度但对溢出敏感, 因此，也考虑其他的指标例 P19 收缩压，排序数据预处理的形式第二章数据采集与准备一．数据的采集和组织二．数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 5. 数据精简数据预处理 3.数据清洗任务：填写缺失值，平滑噪声数据 ①数据缺失直接删除记录丢弃属性如何弥补？数据清洗缺失数据如何弥补？人工填写缺失值用常量填写缺失值取属性均值取同类均值用最可能的值来填充缺失值数据预处理 3.数据清洗 ② 数据噪声随机性干扰波动分组平滑均值平滑中值平滑边界平滑回归平滑聚类平滑分组平滑例如：一位受试者检测得的收缩压原始数据序列是：129，131，124，136，131，132，138，134，139，……。（P21）分组平滑例如：排序后的数据是：4，8，9，15，21，21，24，25，26，28，29，34。回归平滑聚类平滑第二章数据采集与准备一．数据的采集和组织二．数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简第二章数据采集与准备一．数据的采集和组织二．数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简数据预处理 5.数据变换 ①目的：原始数据变换到合适的形式 ②类型变换分类型－数值型（神经网络）数值型－分类型（决策树）数据预处理讨论例：若舒张压原始数据为：90,110,105,140,220,138,182,205,105,110 则，进行下列数据变换后的新数据是？ (1)十进计数法 (2)最小-最大归一法 (3)Z-Score (4)对数归一化第二章数据采集与准备一．数据的采集和组织二．数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 6. 数据精简 (1)目的：减少冗余，提高模型性能 (2)样本记录数的选择精简冗余、保留典型随机选取 P24 典型性分数弥补不平衡数据讨论学习样本数 N 100000例,其中： N1：15% 15000 5年内死亡 N2：85% 85000 生存则，如何选择样本？从模型训练的结果看,学习样本中5年内死亡与生存接近1:1最好。欠抽样undersampling 从N2中随机选部分样本，适用总体样本较多时过抽样oversampling 从N1中随机选部分样本，补充到N1中，适用总体样本较少时讨论欠抽样 undersampling 过抽样 oversampling 数据预处理 6. 数据精简 (3)样本