网站大量收购独家精品文档,联系QQ:2885784924

分类和预测(一).ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类和预测(一)

Data Mining: Concepts and Techniques 分类和预测(1) 主讲人:蔡伟杰 Caiweijie528@ 第七章:分类和预测 什么是分类?什么是预测 关于分类和预测的一些问题 使用决策树进行分类 贝叶斯分类 带回馈的分类 基于关联规则的分类 其他分类方法 预测 分类的准确率 总结 分类和预测 分类 预测种类字段 基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据进行分类 Prediction: 对连续性字段进行建模和预测。 典型应用 信用评分 Direct Marketing 医疗诊断 ………… 分类的两个步骤 模型创建: 对一个类别已经确定的模型创建模型 没一条记录都属于一个确定的类别,我们使用类标签属性记录类别。 用于创建模型的数据集叫:训练集 模型可以用分类规则,决策树,或者数学方程的形式来表达。 模型使用: 用创建的模型预测未来或者类别未知的记录 估计模型的准确率 使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较 准确率: 测试集和训练集是独立的。 分类过程:模型创建 分类过程 (2): 使用模型 有监督和无监督学习 有监督学习 (分类) 训练集是带有类标签的 新的数据是基于训练集进行分类的。 无监督学习 (聚集) 训练集是没有类标签的。 提供一组属性,然后寻找出训练集中存在类别或者聚集。 分类和预测 什么是分类?什么是预测 关于分类和预测的一些问题 使用决策树进行分类 贝叶斯分类 带回馈的分类 基于关联规则的分类 其他分类方法 预测 分类的准确率 总结 关于分类和预测的一些问题 (1): 数据准备 数据清洗 对数据进行预处理,消除噪音和丢失值。 相关性分析 (属性选择) 去掉不相关或者冗余的属性 数据转换 泛化或者对数据进行标准化 关于分类和预测的问题 (2): 评估分类方法 预测准确率 速度 创建速度 使用速度 强壮性 处理噪音和丢失值 伸缩性 对磁盘驻留数据的处理能力 可解释性: 对模型的可理解程度。 规则好坏的评价 决策树的大小 分类规则的简明性 分类和预测 什么是分类?什么是预测 关于分类和预测的一些问题 使用决策树进行分类 贝叶斯分类 带回馈的分类 基于关联规则的分类 其他分类方法 预测 分类的准确率 总结 使用决策树进行分类 决策树 一个树性的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分布 决策树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的进行数据分片 树的修剪 去掉一些可能是噪音或者异常的数据 决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点 训练集 Output: A Decision Tree for “buys_computer” 决策树算法 基本算法(贪心算法) 自上而下分而治之的方法 开始时,所有的数据都在根节点 属性都是种类字段 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain) 停止分割的条件 一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割 属性选择的统计度量 Information gain (ID3/C4.5) 所有属性假设都是种类字段 经过修改之后可以适用于数值字段 Gini index (IBM IntelligentMiner) 能够适用于种类和数值字段 Information Gain (ID3/C4.5) 选择属性的标准:具有最高Information Gain 假设有两个类, P 和 N 假设集合S中含有p个类别P的记录,n个类别N的记录 决定任意一个记录属于类别P或者N所需要的information. Information Gain 在决策树中的使用 假设使用属性A将把集合S分成 V份 {S1, S2 , …, Sv} 如果 Si 中包含 pi 个类别为 P的记录, ni 个类别为 N,的记录。那么熵就是 (entropy), 从而这个信息增益就是 使用信息增益进行属性选择 Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age: Hence Similarly Gini Index (IBM IntelligentMiner) 集合T包含N个类别的记录,那么其Gini指标就是 pj 类别j出现的频率 如果集合T分成两部分 N1 and N2 。那么这个分割

文档评论(0)

kabudou + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档