- 4
- 0
- 约2千字
- 约 28页
- 2017-05-27 发布于重庆
- 举报
02-性能评价数据的采集和组织
生物医学数据挖掘Biomedical Data Mining
上海交通大学医学院
计算机应用教研室
龚著琳
2
回顾
第一章 概论
一、什么是数据挖掘
二、数据挖掘的过程
三、数据挖掘方法的分类
预测型
描述型
3
第一章 概论
一、什么是数据挖掘
二、数据挖掘的过程
三、数据挖掘方法的分类
四、数据挖掘性能评价
评价准则
样本的组织
预测型模型的性能评价
描述型模型的性能评价
4
评价准则:结果或模型
准确性
可理解性
性能
数据的噪声
四、数据挖掘性能评价
5
样本的组织
所有样本属性已知
两类样本:相互独立
学习样本/训练样本集:规律的总结
测试样本集:评价、检验
四、数据挖掘性能评价
6
两类样本的分组
样本数据量
计算成本
随机分组法
很大
低
交叉验证法
不多时
中
留一法
更少
高
7
随机分组法:
通常:训练集(2/3),测试集(1/3)
两类样本的分组
8
交叉验证法:
如 K折交叉验证法(一般随机分成10组)
留一法:适用样本数据更少的情况
两类样本的分组
9
举例
例1.预测型模型
肺癌 干预(手术/手术+化疗)及预后(五年生存)
共5万个样本,其中1.7万干预后5年内死于肺癌
如何组织数据进行数据挖掘?
10
例2.
共1000个,其中315个五年内死亡
如何组织数据?
例3.
共49个,14个5年内死亡,35个存活
如何组织数据?
11
您可能关注的文档
- --提高Java网站的性能.pptx
- 002材料力学轴向拉压.pptx
- -海底捞火锅-新员工培训-企业文化PDF27页.pptx
- 00323模态及假言推理.pptx
- 004MACD操作股票实例图解.pptx
- 003程琮获得院一等奖课件《医学统计学》好用060810.pptx
- 004骨与关节X线诊断.pptx
- 004双极晶体管2a1频率特性及开关特性.pptx
- 003分布式能源知识讲座.pptx
- 007公差与配合.pptx
- 2026年消防年度检测服务协议合同三篇.docx
- 十堰市竹溪县2025-2026学年第二学期三年级语文期末考试卷(部编版含答案).docx
- 长沙市长沙县2025-2026学年第二学期二年级语文期末考试卷部编版含答案.docx
- 承德市兴隆县2025-2026学年第二学期四年级语文期末考试卷(部编版含答案).docx
- 地理七年级下册:日本 (2).pptx
- 乌兰察布盟商都县2025-2026学年第二学期三年级语文期末考试卷(部编版含答案).docx
- 2026年网络游戏账号转让协议协议合同三篇.docx
- 2026年工业冷藏柜租赁协议合同三篇.docx
- 固原地区泾源县2025-2026学年第二学期五年级语文期末考试卷(部编版含答案).docx
- 护理操作技能演示.pptx
最近下载
- 2025届高考生物必背的85个重要知识点总结.docx VIP
- 高考必背的85个重要生物知识点总结.docx VIP
- 中国文化概况A-Glimpse-of-Chinese-Culture(修订版)Chapter-8.ppt VIP
- 2026年高考生物必背85个重要知识点总结汇编.pdf VIP
- 预防高处坠落事故专项施工方案.docx VIP
- AutoCAD2022实用教程全套完整教学课件.pptx
- Soundcraft声艺Signature 22MTK Outline Dimensions file)说明书用户手册.pdf
- 教案课件-典五典范英语5a l6教学参考.pdf VIP
- 商业银行数字化转型:文献综述与研究展望_刘敏楼.pdf VIP
- 施工现场临时用电配电箱标准化图集.pdf VIP
原创力文档

文档评论(0)