02-性能评价数据的采集和组织.pptxVIP

  • 4
  • 0
  • 约2千字
  • 约 28页
  • 2017-05-27 发布于重庆
  • 举报
02-性能评价数据的采集和组织

生物医学数据挖掘 Biomedical Data Mining 上海交通大学医学院 计算机应用教研室 龚著琳 2 回顾 第一章 概论 一、什么是数据挖掘 二、数据挖掘的过程 三、数据挖掘方法的分类 预测型 描述型 3 第一章 概论 一、什么是数据挖掘 二、数据挖掘的过程 三、数据挖掘方法的分类 四、数据挖掘性能评价 评价准则 样本的组织 预测型模型的性能评价 描述型模型的性能评价 4 评价准则:结果或模型 准确性 可理解性 性能 数据的噪声 四、数据挖掘性能评价 5 样本的组织 所有样本属性已知 两类样本:相互独立 学习样本/训练样本集:规律的总结 测试样本集:评价、检验 四、数据挖掘性能评价 6 两类样本的分组 样本数据量 计算成本 随机分组法 很大 低 交叉验证法 不多时 中 留一法 更少 高 7 随机分组法: 通常:训练集(2/3),测试集(1/3) 两类样本的分组 8 交叉验证法: 如 K折交叉验证法(一般随机分成10组) 留一法:适用样本数据更少的情况 两类样本的分组 9 举例 例1.预测型模型 肺癌 干预(手术/手术+化疗)及预后(五年生存) 共5万个样本,其中1.7万干预后5年内死于肺癌 如何组织数据进行数据挖掘? 10 例2. 共1000个,其中315个五年内死亡 如何组织数据? 例3. 共49个,14个5年内死亡,35个存活 如何组织数据? 11

文档评论(0)

1亿VIP精品文档

相关文档