- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘简单概括PPT
6.2 决策树分类算法 决策树的建立--决策树建立步骤(例) 老年组数据表分析: 3. 假定选择信誉作节点 I(257,127) = 0.9157 I(256,0)=0 比例: 256/384=0.6667 I(1,127)=0.0659 比例: 128/384=0.3333 平均信息期望(加权总和): E(信誉)= 0.6667 * 0 + 0.3333 * 0.0659 = 0.0220 Gain(信誉) = I(257, 127) - E(信誉)=0.9157 – 0.0220 = 0.8937 结论: 决定选择属性信誉 分类与预测 6.1 分类与预测概述 1 6.2 决策树分类算法 2 6.3 贝叶斯分类算法 3 6.4 关联分类 4 6.5 最近邻分类 5 6.6 其他分类方法 6 6.1 分类与预测概述 分类分析 所谓分类,就是把给定的数据划分到一定的类别中。分类分析就是通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类。 分类分析的输入集是一组记录集合和几种类别的标记。这个输入集又称示例数据库或训练集。 训练集中的记录称为样本。在这个训练集中,每个记录都被赋予一个类别的标记。 6.1 分类与预测概述 分类分析 分类分析方法的一个典型例子是信用卡核准过程。信用卡公司根据信誉程度,将一组持卡人记录分为良好、一般和较差三类,且把类别标记赋给每个记录。分类分析就是分析该组记录数据,对每个信誉等级建立分类分析模型。如“信誉良好的客户是那些收入在5万元以上,年龄在40-50岁之间的人士”。得出这个分类分析模型之后,就可根据这个分类分析模型对新的记录进行分类,从而判断一个新的持卡人的信誉等级是什么。 6.1 分类与预测概述 分类与预测 分类: 预测分类标号(或离散值) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据 预测: (prediction)是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。 相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归 不同点 分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值) 6.1 分类与预测概述 分类步骤 第一步,学习过程,建立一个模型,描述预定数据类集和概念集 假定每个元组属于一个预定义的类,由一个类标号属性确定 基本概念 训练数据集:由为建立模型而被分析的数据元组组成 训练样本:训练数据集中的单个样本(元组) 学习模型可以用分类规则、决策树或数学公式的形式提供 6.1 分类与预测概述 第一步——建立模型 6.1 分类与预测概述 分类步骤 第二步,分类过程,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的情况 6.1 分类与预测概述 第二步——用模型进行分类 6.1 分类与预测概述 有指导的学习 VS.无指导的学习 有指导的学习(用于分类) 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) 每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的 通过一系列的度量、观察来建立数据中的类编号或进行聚类 6.1 分类与预测概述 分类的主要算法 (1)决策树算法 (2)贝叶斯分类算法 (3)神经网络分类算法 (4)遗传算法 (5)粗糙集分类算法 其他 6.2 决策树分类算法 什么是决策树(判定树,Decision Tree)? 决策树是采用树状分岔的架构来产生规则,适用于所有分类的问题。 类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个树叶节点代表类或类分布 用途:提取分类规则,进行分类预测 判定树分类算法 output 训练集 决策树 input 6.2 决策树分类算法 决策树的概念 如果每个内节点都恰好有两个分枝,则称为二叉树。如果内节点有多于两个的分枝,则称为多叉树。从根节点到每个叶节点的路径称为“决策规则”。 决策树可用于对新样本的分类,即通过决策树对新样本属性值进行测试,从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,该叶节点表示的类别就是新样本的类别,也能有效地识别新样本的类别。 6.2 决策树分类算法 决策树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的通过选定的属性,来划分样本(必须是离散值) 树的修剪 去掉一些可能是噪音或者
文档评论(0)