商务智能原理与方法(第三版) 课件 ch08 分类分析.pptx

商务智能原理与方法(第三版) 课件 ch08 分类分析.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

分类分析普通高等教育“十一五”国家级规划教材商务智能原理与方法(第三版)第八章

01分类分析简介

通常,分类过程主要包含两个步骤:第一步,分析已知数据的情况,建立一个分类模型以描述已知数据属性与给定类别之间的对应关系,该分类模型也被称为分类器;第二步是利用所获得的分类模型(分类器)对新数据的类别进行预测。分类分析简介

(1)可理解性:描述分类器表示的知识被用户理解的程度。(2)速度:描述在构造和使用分类器时的计算效率。(3)鲁棒性/健壮性:描述在数据带有噪声和有数据遗失的情况下,分类器仍能进行正确预测的能力。分类分析简介分类准确率是分类器最重要的一个指标,除此以外,还可以根据以下几条标准评价分类方法。

02决策树分类

决策树(DecisionTree,DT)是一个类似流程图的树形结构,决策树分类方法以树的形式采用自上而下的方式给出分类规则。决策树分类

决策树方法可以划分为决策树构建和决策树剪枝两阶段。决策树构建是指根据训练集得到一个粗略的、基础的树形结构。决策树构建的关键是在每个内部节点上确定分裂属性和对应的测试内容。当构建决策树时,有许多由数据集中的噪声或异常数据所产生的分枝。决策树剪枝就是识别并消除这类分枝,以帮助改善对未知对象分类的准确性。决策树分类

决策树的树形结构决定了构建一棵决策树的方法和过程。构建决策树的基本思想是递归地从所有可选的属性中选择最优的分裂属性,直至满足某个结束条件为止。初始构建决策树时,一个单个节点(根节点)代表了所有的训练样本集数据;对于任意一个节点(包括根节点),若对应的样本均为同一类别,则该节点就成为叶子节点并标记为该类别。决策树分类决策树构建

(1)当前节点的所有样本均为同一类别。(2)候选属性集为空,此时标记该节点为默认类别Cdefault。(3)某分枝没有符合测试条件的样本,创建一个叶子节点,并将其标记为默认类别Cdefault。决策树分类递归方法一定要包括某种停止条件,通常,决策树构建方法的递归停止条件如下。

当利用训练集生成决策树后,树的很多分枝属于噪声或会对分类准确率造成负面影响,这种情况称为模型“过适应于”(Overfitting)数据,因此需要对决策树进行剪枝来提高决策树的分类能力。一方面,决策树剪枝会提高决策树分类的速度;另一方面,决策树独立于测试数据正确分类的能力也会有所提高。决策树分类决策树剪枝

03贝叶斯分类

贝叶斯定理也称贝叶斯推理,通过计算条件概率以解决如下一类问题。设H?,H?,…,H,互斥且构成一个完全事件,已知它们发生的概率P(H;)(i=1,2,…,n),现观察到某事件A与H?,H?,…,H,相伴随而出现,且已知条件概率P(A|H?),即在H?发生的情况下事件A发生的概率;希望确定P(H?|A)的值,即给定样本A时H,发生的概率。P(H?[4)是后验概率,或者称条件A下H?的后验概率。相应地,P(H?)称为先验概率,或者H的先验概率。贝叶斯定理可通过P(A|H?)、P(A)和P(H?)的值来计算获得P(H?|A),即贝叶斯分类贝叶斯定理

根据贝叶斯定理计算未知对象属于某类别的概率,从而判断该对象的类别,则得到一个贝叶斯分类器。顾名思义,简单贝叶斯分类器是一种简化的贝叶斯分类器。它假设一个指定类别中各属性的取值是相互独立的,从而使问题得到简化。贝叶斯分类简单贝叶斯分类器简单贝叶斯分类器是基于“一个指定类别中各属性的取值是相互独立的”这个假设来进行分类计算的,即给定一个数据样本类别,其样本的各属性的取值应是相互独立的。这个假设简化了分类计算的复杂性。若该假设对于特定数据集不成立,简单贝叶斯分类器便会分类错误。贝叶斯信念网络

04其他分类方法

2、支持向量机(SupportVectorMachine,SVM)[211-213]能够非常有效地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广至预测和综合评价等领域。1、神经元网络(NeuralNetwork,NN)起源于生理学和神经生物学中有关神经细胞计算本质的研究工作,是在对人脑组织结构和运行机制的认识理解基础上模拟其结构和智能行为的一种工程系统。3、懒惰型分类器,这类方法不构造分类器,而是只将训练集保存起来或只对训练集做简单分析,当需要对新记录进行分类时,在保存的记录中寻找与之最相似的样本,根据这个样本的类别来分类。其他分类方法

05分类准确率

010203041.经典的分类准确率评估分类准确率是最重要的指标之一。3.经典的分类准确率比较2.ROC曲线方法使用ROC曲线技术来更全面地对分类器进行评估。4.基于ROC曲线的统计比较分类准确率分类准确率比较与评估1)选择T的值,T1,设t=1。(3)重复(2)中的过程,直到tT为止。(2)从样本集合S中采用替换方式获得

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档