数据仓库数据挖掘chap5.ppt

下载文档 降价啦

6
0
约6.92千字
约 56页
2016-03-18 发布于安徽
举报
版权申诉
保障服务

数据仓库数据挖掘chap5.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据仓库数据挖掘chap5.ppt

第五章分类和预测第五章分类和预测 5.1 基本概念 5.2 决策树分类算法 5.3 回归预测方法 5.4 分类器或预测器的评估 5.1 基本概念——分类和预测分类预测类别字段基于训练集形成一个模型，训练集中的类标签是已知的。使用该模型对新的数据进行分类典型应用信用评分 Direct Marketing 医疗诊断 ………… 分类的两个步骤模型创建: 用类别已经确定的数据创建模型每一条记录都属于一个确定的类别。用于创建模型的数据集叫:训练集模型可以用分类规则，决策树，或者数学方程的形式来表达。模型使用: 用创建的模型预测未来或者类别未知的记录估计模型的准确率使用创建的模型在一个测试集上进行预测，并将结果和实际值进行比较准确率：分类器正确分类的数目所占的百分比测试集和训练集是独立的。分类过程：模型创建分类过程 (2): 使用模型有监督和无监督学习有监督学习 (分类) 训练集是带有类标签的新的数据是基于训练集进行分类的。无监督学习 (聚集) 训练集是没有类标签的。提供一组属性，然后寻找出训练集中存在类别或者聚集。关于分类和预测的一些问题 (1) 数据准备 (2) 评估分类方法问题 (1): 数据准备数据清洗对数据进行预处理，消除噪音和丢失值。相关性分析 (属性选择) 去掉不相关或者冗余的属性数据转换泛化或者对数据进行标准化问题 (2): 评估分类方法预测准确率速度创建速度使用速度健壮性处理噪音和丢失值伸缩性对大量数据的处理能力可解释性: 对模型的可理解程度。规则好坏的评价分类规则的简明性 5.2 决策树分类算法决策树一个树型的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分布决策树生成算法分成两个步骤树的生成开始，数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用: 对未知数据进行分割按照决策树上采用的分割属性逐层往下，直到一个叶子节点训练集 Output: A Decision Tree for “buys_computer” 决策树算法基本算法（贪心算法）自上而下递归地分而治之的方法开始时，所有的数据都在根节点属性都是范畴型字段 (如果是连续的，将其离散化) 所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain) 停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割属性选择的统计度量 Information gain (ID3/C4.5) 所有属性假设都是范畴型字段经过修改之后可以适用于数值型字段 Gini index (IBM IntelligentMiner) 能够适用于范畴和数值型字段 Information Gain (ID3/C4.5) 选择属性的标准：具有最高Information Gain 假设有两个类, P 和 N 假设集合D中含有p个类别P的记录,n个类别N的记录决定任意一个记录属于类别P或者N所需要的information. Information Gain 在决策树中的使用假设使用属性A将把集合D分成 V份 {D1, D2 , …, Dv} 如果 Di 中包含 pi 个类别为 P的记录, ni 个类别为 Ni的记录。那么熵就是 (entropy), 含义：为了得到准确的分类，我们还需多少信息？从而这个信息增益就是含义：知道A的值而导致的信息需求的期望减少。属性选择: Information Gain Class P: buys_computer = “yes” Class N: buys_computer = “no” 表示 “age =30” 有五个样例, 其中3个正例，2个反例. 因而类似地, 数值属性的信息增益计算假设属性 A 是连续的必须确定A中的最佳分裂点对A的值按增序排序每对相邻值的中点被看作是中点 (ai+ai+1)/2 是值ai 和 ai+1的中点选择具有最小的中点作为最佳分裂点split-point 分裂点: 数据集D1 满足 A ≤ split-point, D2 满足 A split-point Gini Index (IBM IntelligentMiner) 集合T包含N个类别的记录，那么其Gini指标就是 pj 类别j出现的频率如果集合T分成两部分 N1 and N2 。那么这个分割的Gini就是提供最小Ginis