数据挖掘算法培训讲义分类和预测解析.pptVIP

数据挖掘算法培训讲义分类和预测解析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘:概念与技术(翻译 张磊) DM算法-1 分类和预测 出处:《数据挖掘:概念与技术》 ?Jiawei Han and Micheline Kamber DM算法-1 分类和预测 什么是分类? 什么是预测? 关于分类与预测的问题 通过决策树归纳来分类 贝叶斯分类 通过反向传播来分类 基于关联规则挖掘的概念来分类 其它分类方法 预测 分类准确率 总结 分类与预测 分类: 预测分类标签 基于训练集和分类属性值(分类标签)构造分类模型,然后用该模型分类新数据 预测: 对连续函数建模, 即预测未知的或缺失的数据 典型应用 信用审核 目标营销 医疗诊断 治疗效果分析 分类—两步骤过程 建立一个模型: 描述预定的数据类或概念集 假定每个元组/样本可以通过类标签属性来确定它属于某个预定义的类 用于创建模型的元组集合: 训练集 模型可以用分类规则, 决策树, 或数学公式来表达 使用模型: 对未知(分类标签的)对象进行分类 模型估计准确率 已知测试样本的分类标签, 将其和模型的分类结果比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集应独立于训练集, 否则可能导致过度拟合 分类过程 (1): 模型创建 分类过程 (2): 使用模型来预测 有指导的 vs. 无指导的学习 有指导的学习 (分类) 指导: 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 基于训练集对新数据进行分类 无指导的学习 (聚类) 训练数据的类标签是未知的 给定一组样本, 试图建立分类或数据的聚类 DM算法-1 分类和预测 什么是分类? 什么是预测? 关于分类与预测的问题 通过决策树归纳来分类 贝叶斯分类 通过反向传播来分类 基于关联规则挖掘的概念来分类 其它分类方法 预测 分类准确率 总结 分类与预测相关问题 (1): 数据准备 数据清洗 数据准备是为了减少噪声数据, 并处理缺失值 相关分析 (特征选取) 删除无关属性和冗余属性 数据转换 数据的泛化和归一化 分类与预测的相关问题 (2): 分类方法的评估 预测准确率 速度和扩展能力 创建模型所需时间 应用模型所需时间 健壮性 可以处理噪声和缺失值 扩展能力 在大型数据库上的处理能力 可解释性 模型能否增强用户对数据的理解和洞察力 是否良好的规则 决策树的大小 分类规则的简洁程度 DM算法-1 分类和预测 什么是分类? 什么是预测? 关于分类与预测的问题 通过决策树归纳来分类 贝叶斯分类 通过反向传播来分类 基于关联规则挖掘的概念来分类 其它分类方法 预测 分类准确率 总结 通过决策树归纳进行分类 决策树 类似于流程图的树型结构 内部节点代表对某个属性的一次测试 分支代表测试的输出结果 叶节点代表分类标签或分布 决策树的生成包括两个阶段 树的创建 首先, 所有训练样本都位于根节点 递归地基于选择属性来划分样本集 树的修剪 识别并删除那些反映噪声或孤立点的分支 应用决策树: 对未知样本进行分类 在决策树上测试样本的各个属性值 训练数据集 输出: 预测“是否会购买计算机”的决策树 决策树归纳算法 基本算法(贪婪算法) 树的创建是一种自顶向下递归的分而治之方法 首先, 所有训练样本都位于根节点 属性都是类别型变量 (若为连续值, 则需先离散化) 基于选择的属性, 对样本进行递归划分 通过启发式搜索或统计量来选取测试属性 (例如, 信息增益) 停止划分的条件 对于某个给定节点, 所有样本都属于同一分类 没有剩余属性可供进一步划分 – 按照少数服从多数的原则来确定叶节点的分类 所有样本都已分类完毕 属性选取的度量 信息增益 (ID3/C4.5) 所有属性应为类别型变量 可以通过改进来处理连续值属性 Gini索引 (IBM IntelligentMiner) 所有属性应为连续值变量 对于每个属性, 假定已存在若干可能的切分点 可能需要其它工具(如聚类)的辅助来获取切分点 可以通过改进来处理类别型属性 信息增益 (ID3/C4.5) 选取具有最高信息增益的属性 假定存在两个分类, P 和N 样本集S中包含p个样本属于类别P, n个样本属于类别N 用于判别S中任意样本属于类别P 或N 的信息量, 定义为 决策树归纳中的信息增益 假定通过属性A可以将样本集S划分为多个集合{S1, S2 , …, Sv} 如果Si 包含pi 个P 类样本和ni 个N 类样本, 熵, 或将S所有子树中的对象进行分类所需的期望信息i 定义为 在A上分枝将获得的编码信息是 通过计算信息增益来选取属性 类别P: buys_computer = “yes” 类别N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 计算属性age的熵: 因此 同样的

文档评论(0)

南非的朋友 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档