- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
临床大数据的挖掘、分析及应用
第四讲 分类分析概念及决策树分析方法
分类的概念及步骤
分类性能的评估
决策树分析方法与原理
案例:应用决策树获得影响结局的决策准则
1
1 分类的概念及步骤
在高维数据的统计分析中,分类(Classification )和聚类(Custer)是
两种常见分析方法。
分类:有监督学习方法
聚类:无监督学习方法
2
1 分类的概念及步骤
有监督学习:对已知类别的样本进行分类器的学习
无监督学习:对未知类别的样本或不利用样本类别信
息进行分类学习
3
1 分类的概念及步骤
分类(Classification)是一种数据分析过程,即根据记录各种属性的
值确定该记录属于预定类别中的哪一类。分类是数据挖掘中的常用方
法,在医学应用中,疾病的诊断和鉴别诊断就是典型的分类过程。
4
1 分类的概念及步骤
分类器的产生主要通过学习和测试两部分完成。学习过程是依据训练样
本(Training Sample )进行有监督的学习,通过学习得到特定的分类
器(Classifier)。
测试过程是以学习得到的分类器对测试样本(Testing Sample )进行
分类,并将分类结果与该样本的类别归属进行对照,以此判断分类器的
性能。当分类器的分类性能达到预定目标后,即可用该分类器对未知数
据的类别进行判定。用于评估分类器性能的测试样本必须独立于训练样
本。
5
1 分类的概念及步骤
训练样本与测试样本的选取
(1)随机分组法:将已知数据集合随机的分为互不重叠的学习样本和测试样
本,训练样本量越大,对于分类器的学习就会越准确。因此,当已知数据集较大
的时候,常采用原始数据的三分之二作为训练样本,但缺点是可能会导致不同类
别的样本在两个样本中分布不均衡。
6
1 分类的概念及步骤
2 )N倍交叉验证法:将原有数据集随机的分为N组,分别以其中的一组数据作为测试
样本,其他组数据作为训练样本进行训练和测试。这样一共训练了N次,得到N个分
类准确率。最后取N次测试的分类准确率的均值来反应分类器的性能。
5倍交叉验证
特别的,当N为总样本数
时,此方法则成为留一法
(leave-one-out)。
7
1 分类的概念及步骤
(3 )Bootstrap法(自助法):假设原数据集中有M个样本,对样本重复进行抽样,
每次取
文档评论(0)