分类和预测(一).ppt

下载文档 降价啦

145
0
约4.44千字
约 37页
2016-12-06 发布于重庆
举报
版权申诉
保障服务

分类和预测(一).ppt

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分类和预测(一)

Data Mining: Concepts and Techniques 分类和预测（1）主讲人：蔡伟杰 Caiweijie528@ 第七章：分类和预测什么是分类？什么是预测关于分类和预测的一些问题使用决策树进行分类贝叶斯分类带回馈的分类基于关联规则的分类其他分类方法预测分类的准确率总结分类和预测分类预测种类字段基于训练集形成一个模型，训练集中的类标签是已知的。使用该模型对新的数据进行分类 Prediction: 对连续性字段进行建模和预测。典型应用信用评分 Direct Marketing 医疗诊断 ………… 分类的两个步骤模型创建: 对一个类别已经确定的模型创建模型没一条记录都属于一个确定的类别，我们使用类标签属性记录类别。用于创建模型的数据集叫:训练集模型可以用分类规则，决策树，或者数学方程的形式来表达。模型使用: 用创建的模型预测未来或者类别未知的记录估计模型的准确率使用创建的模型在一个测试集上进行预测，并将结果和实际值进行比较准确率：测试集和训练集是独立的。分类过程：模型创建分类过程 (2): 使用模型有监督和无监督学习有监督学习 (分类) 训练集是带有类标签的新的数据是基于训练集进行分类的。无监督学习 (聚集) 训练集是没有类标签的。提供一组属性，然后寻找出训练集中存在类别或者聚集。分类和预测什么是分类？什么是预测关于分类和预测的一些问题使用决策树进行分类贝叶斯分类带回馈的分类基于关联规则的分类其他分类方法预测分类的准确率总结关于分类和预测的一些问题 (1): 数据准备数据清洗对数据进行预处理，消除噪音和丢失值。相关性分析 (属性选择) 去掉不相关或者冗余的属性数据转换泛化或者对数据进行标准化关于分类和预测的问题 (2): 评估分类方法预测准确率速度创建速度使用速度强壮性处理噪音和丢失值伸缩性对磁盘驻留数据的处理能力可解释性: 对模型的可理解程度。规则好坏的评价决策树的大小分类规则的简明性分类和预测什么是分类？什么是预测关于分类和预测的一些问题使用决策树进行分类贝叶斯分类带回馈的分类基于关联规则的分类其他分类方法预测分类的准确率总结使用决策树进行分类决策树一个树性的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分布决策树生成算法分成两个步骤树的生成开始，数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用: 对未知数据进行分割按照决策树上采用的分割属性逐层往下，直到一个叶子节点训练集 Output: A Decision Tree for “buys_computer” 决策树算法基本算法（贪心算法）自上而下分而治之的方法开始时，所有的数据都在根节点属性都是种类字段 (如果是连续的，将其离散化) 所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain) 停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割属性选择的统计度量 Information gain (ID3/C4.5) 所有属性假设都是种类字段经过修改之后可以适用于数值字段 Gini index (IBM IntelligentMiner) 能够适用于种类和数值字段 Information Gain (ID3/C4.5) 选择属性的标准：具有最高Information Gain 假设有两个类, P 和 N 假设集合S中含有p个类别P的记录,n个类别N的记录决定任意一个记录属于类别P或者N所需要的information. Information Gain 在决策树中的使用假设使用属性A将把集合S分成 V份 {S1, S2 , …, Sv} 如果 Si 中包含 pi 个类别为 P的记录, ni 个类别为 N,的记录。那么熵就是 (entropy), 从而这个信息增益就是使用信息增益进行属性选择 Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age: Hence Similarly Gini Index (IBM IntelligentMiner) 集合T包含N个类别的记录，那么其Gini指标就是 pj 类别j出现的频率如果集合T分成两部分 N1 and N2 。那么这个分割