朴素贝叶斯分类算法演示.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
朴素贝叶斯分类算法演示

第3章 分类与回归 3.1 概述 3.2 决策树分类方法 3.3 贝叶斯分类方法 3.4 K-最近邻分类方法 3.5 神经网络分类方法 3.6 支持向量机 3.7 组合学习方法 3.8 不平衡数据分类问题 3.9 分类模型的评价 3.10 回归方法 3.1 概述 分类的定义 分类是数据挖掘中的一种主要分析手段 分类的任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如: 根据电子邮件的标题和内容检查出垃圾邮件 根据核磁共振的结果区分肿瘤是恶性还是良性的 根据星系的形状对它们进行分类 划分出交易是合法或欺诈 将新闻分类金融、天气、娱乐体育等 分类与回归的区别 分类和回归都有预测的功能,但是: 分类预测的输出为离散或标称的属性; 回归预测的输出为连续属性值; 分类与回归的例子: 预测未来某银行客户会流失或不流失,这是分类任务; 预测某商场未来一年的总营业额,这是回归任务。 分类的步骤 分类的过程描述如下: 1)首先将数据集划分为2部分:训练集和测试集。 2) 第一步:对训练集学习,构建分类模型。 模型可以是决策树或分类规则等形式。 3) 第二步:用建好的分类模型对测试集分类 评估该分类模型的分类准确度及其它性能。 4)最后,使用分类准确度高的分类模型对类标号未知的未来样本数据进行分类。 分类与聚类的区别 分类因为使用了类标号属性,属于有监督的学习方法 聚类,事先没有使用任何类标号信息,属于无监督的学习方法 分类的应用 目前分类与回归方法已被广泛应用于各行各业,如: 股票预测 信用评估 医疗诊断 市场营销 图像分类等 …… 数据挖掘中分类算法归类 分类模型的学习方法大体上主要有以下几类 基于决策树的分类方法 贝叶斯分类方法 K-最近邻分类方法 神经网络方法 支持向量机方法 集成学习方法 …… 回归分析 回归分析可以对预测变量和响应变量之间的联系建模。 在数据挖掘环境下,预测变量是描述样本的感兴趣的属性,一般预测变量的值是已知的,响应变量的值是我们要预测的。当响应变量和所有预测变量都是连续值时,回归分析是一个好的选择。 回归分析包括:线性回归、非线性回归以及逻辑回归等。 3.2 决策树分类方法 3.2.1 决策树的基本概念 3.2.1 决策树的基本概念 决策树(Decision Tree)是一种树型结构,包括:决策节点(内部节点)、分支和叶节点三个部分。 其中: 决策节点代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。 叶节点存放某个类标号值,表示一种可能的分类结果。 分支表示某个决策节点的不同取值。 决策树可以用来对未知样本进行分类,分类过程如下:从决策树的根节点开始,从上往下沿着某个分支往下搜索,直到叶结点,以叶结点的类标号值作为该未知样本所属类标号。 典型决策树 决策树分类例题演示1 某银行训练数据下表, 请利用决策树分类方法预测类标号未知的新样本{“是”,“5000~10000”,“2”,“是”,?},其类标号属性为流失或不流失. 首先,建立决策树 然后,使用决策树对未知新样本分类: 决策树分类例题演示2 应用模型测试数据 应用模型测试数据 应用模型测试数据 应用模型测试数据 应用模型测试数据 应用模型测试数据 3.2.2 决策树的构建 决策树在构建过程中需重点解决2个问题: (1)如何选择合适的属性作为决策树的节点去划分训练样本; (2)如何在适当位置停止划分过程,从而得到大小合适的决策树。 1.决策树的属性选择 虽然可以采用任何一个属性对数据集进行划分,但最后形成的决策树会差异很大。需要寻找合适的属性选择方法。 属性选择是决策树算法中重要的步骤,常见的属性选择标准包括信息增益(information gain)和Gini系数。 信息增益是决策树常用的分枝准则,在树的每个结点上选择具有最高信息增益的属性作为当前结点的划分属性。 Gini系数是一种不纯度函数,用来度量数据集的数据关于类的纯度。 2.获得大小合适的树 决策树学习的目的是希望生成能够揭示数据集结构并且预测能力强的一棵树,在树完全生长的时候有可能预测能力反而降低,为此通常需要获得大小合适的树。 一般来说有两种获取方法: 一种为定义树的停止生长条件,常见条件包括最小划分实例数、划分阈值和最大树深度等。 另一种方法是对完全生长决策树进行剪枝,方法是对决策树的子树进行评估,若去掉该子树后整个决策树表现更好,则该子树将被剪枝。 3.决策树构建的经典算法 Hunt算法是许多经典决策树算法如ID3、C4.5的基础 Hunt算法对决策树的建立过程描述如下,假定Dt是与结点t相关联的训练记录集,C={C1,C2,…,Cm}是类标号,Hunt算法的递归定义如

文档评论(0)

suijiazhuang1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档