临床数据挖掘课程系列四讲.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
临床大数据的挖掘、分析及应用 第四讲 分类分析概念及决策树分析方法 分类的概念及步骤 分类性能的评估 决策树分析方法与原理 案例:应用决策树获得影响结局的决策准则 1 1 分类的概念及步骤 在高维数据的统计分析中,分类(Classification )和聚类(Custer)是 两种常见分析方法。 分类:有监督学习方法 聚类:无监督学习方法 2 1 分类的概念及步骤 有监督学习:对已知类别的样本进行分类器的学习 无监督学习:对未知类别的样本或不利用样本类别信 息进行分类学习 3 1 分类的概念及步骤 分类(Classification)是一种数据分析过程,即根据记录各种属性的 值确定该记录属于预定类别中的哪一类。分类是数据挖掘中的常用方 法,在医学应用中,疾病的诊断和鉴别诊断就是典型的分类过程。 4 1 分类的概念及步骤 分类器的产生主要通过学习和测试两部分完成。学习过程是依据训练样 本(Training Sample )进行有监督的学习,通过学习得到特定的分类 器(Classifier)。 测试过程是以学习得到的分类器对测试样本(Testing Sample )进行 分类,并将分类结果与该样本的类别归属进行对照,以此判断分类器的 性能。当分类器的分类性能达到预定目标后,即可用该分类器对未知数 据的类别进行判定。用于评估分类器性能的测试样本必须独立于训练样 本。 5 1 分类的概念及步骤 训练样本与测试样本的选取 (1)随机分组法:将已知数据集合随机的分为互不重叠的学习样本和测试样 本,训练样本量越大,对于分类器的学习就会越准确。因此,当已知数据集较大 的时候,常采用原始数据的三分之二作为训练样本,但缺点是可能会导致不同类 别的样本在两个样本中分布不均衡。 6 1 分类的概念及步骤 2 )N倍交叉验证法:将原有数据集随机的分为N组,分别以其中的一组数据作为测试 样本,其他组数据作为训练样本进行训练和测试。这样一共训练了N次,得到N个分 类准确率。最后取N次测试的分类准确率的均值来反应分类器的性能。 5倍交叉验证 特别的,当N为总样本数 时,此方法则成为留一法 (leave-one-out)。 7 1 分类的概念及步骤 (3 )Bootstrap法(自助法):假设原数据集中有M个样本,对样本重复进行抽样, 每次取

文档评论(0)

zzqky + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档