网站大量收购独家精品文档,联系QQ:2885784924

数据仓库数据挖掘chap5.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库数据挖掘chap5.ppt

第五章 分类和预测 第五章 分类和预测 5.1 基本概念 5.2 决策树分类算法 5.3 回归预测方法 5.4 分类器或预测器的评估 5.1 基本概念——分类和预测 分类 预测类别字段 基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据进行分类 典型应用 信用评分 Direct Marketing 医疗诊断 ………… 分类的两个步骤 模型创建: 用类别已经确定的数据创建模型 每一条记录都属于一个确定的类别。 用于创建模型的数据集叫:训练集 模型可以用分类规则,决策树,或者数学方程的形式来表达。 模型使用: 用创建的模型预测未来或者类别未知的记录 估计模型的准确率 使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较 准确率:分类器正确分类的数目所占的百分比 测试集和训练集是独立的。 分类过程:模型创建 分类过程 (2): 使用模型 有监督和无监督学习 有监督学习 (分类) 训练集是带有类标签的 新的数据是基于训练集进行分类的。 无监督学习 (聚集) 训练集是没有类标签的。 提供一组属性,然后寻找出训练集中存在类别或者聚集。 关于分类和预测的一些问题 (1) 数据准备 (2) 评估分类方法 问题 (1): 数据准备 数据清洗 对数据进行预处理,消除噪音和丢失值。 相关性分析 (属性选择) 去掉不相关或者冗余的属性 数据转换 泛化或者对数据进行标准化 问题 (2): 评估分类方法 预测准确率 速度 创建速度 使用速度 健壮性 处理噪音和丢失值 伸缩性 对大量数据的处理能力 可解释性: 对模型的可理解程度。 规则好坏的评价 分类规则的简明性 5.2 决策树分类算法 决策树 一个树型的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分布 决策树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的进行数据分片 树的修剪 去掉一些可能是噪音或者异常的数据 决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点 训练集 Output: A Decision Tree for “buys_computer” 决策树算法 基本算法(贪心算法) 自上而下递归地分而治之的方法 开始时,所有的数据都在根节点 属性都是范畴型字段 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain) 停止分割的条件 一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割 属性选择的统计度量 Information gain (ID3/C4.5) 所有属性假设都是范畴型字段 经过修改之后可以适用于数值型字段 Gini index (IBM IntelligentMiner) 能够适用于范畴和数值型字段 Information Gain (ID3/C4.5) 选择属性的标准:具有最高Information Gain 假设有两个类, P 和 N 假设集合D中含有p个类别P的记录,n个类别N的记录 决定任意一个记录属于类别P或者N所需要的information. Information Gain 在决策树中的使用 假设使用属性A将把集合D分成 V份 {D1, D2 , …, Dv} 如果 Di 中包含 pi 个类别为 P的记录, ni 个类别为 Ni的记录。那么熵就是 (entropy), 含义:为了得到准确的分类,我们还需多少信息? 从而这个信息增益就是 含义:知道A的值而导致的信息需求的期望减少。 属性选择: Information Gain Class P: buys_computer = “yes” Class N: buys_computer = “no” 表示 “age =30” 有五个样例, 其中3个正例,2个反例. 因而 类似地, 数值属性的信息增益计算 假设属性 A 是连续的 必须确定A中的最佳分裂点 对A的值按增序排序 每对相邻值的中点被看作是中点 (ai+ai+1)/2 是值ai 和 ai+1的中点 选择具有最小 的中点作为最佳分裂点split-point 分裂点: 数据集D1 满足 A ≤ split-point, D2 满足 A split-point Gini Index (IBM IntelligentMiner) 集合T包含N个类别的记录,那么其Gini指标就是 pj 类别j出现的频率 如果集合T分成两部分 N1 and N2 。那么这个分割的Gini就是 提供最小Ginis

文档评论(0)

feiyang66 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档