[小学教育]数据挖掘课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[小学教育]数据挖掘课件

数据挖掘 第七章:分类和预测 ??什么是分类?什么是预测? ??关于分类和预测的问题 ??用判定树归纳分类 ??贝叶斯分类 ??向后传播分类 ??基于源自关联规则挖掘概念的分类 ??其它的分类方法 ??预测 ??分类法的准确性 ??小结 分类和预测 分类: 预测分类标号 在分类属性中的训练样本集和值(类标号)的基础上分类数据(建立模型)并使用它分类新数据 预测: 为连续值函数建模,预测未知的或缺省值 典型应用 信誉证实 选择购物 医疗诊断 治疗的性能分析 分类—一个两步的过程 假设每一元组/样本属于一个预定的类,由一个类标号属性的属性确定 用来建立模型的元组集被称为训练样本集 模型可用分类规则,判定树或数学公式表示 模型的使用: 为了分类将来或未知的对象 评估模型的准确性 对于每个测试样本,将已知的的类标号和该样本的模型分类结果进行比较 准确率是正确被模型分类的测试样本的百分比 测试集独立于样本集,否则会出现过分适合的现象 有指导学习和无指导学习 有指导学习(分类) 有指导:类标号伴随着训练数据,只是训练数据所属的类 新数据在训练集的基础上进行分类 无指导学习(聚类) 训练数据的类标号未知 给定一个度量和观测值班员集,意图确定数据中类或聚类的存在 第七章:分类和预测 什么是分类?什么是预测? 关于分类和预测的问题 用判定树归纳分类 贝叶斯分类 向后传播分类 基于源自关联规则挖掘概念的分类 其它的分类方法 预测 分类法的准确性 小结 关于分类和预测的问题(1):数据准备 数据清理 预处理数据是为了减少噪声和处理空缺值 相关性分析(特征选择) 删除不相关和冗余属性 数据变换 概化和/或规格化数据 关于分类和预测的问题(2): 评估分类模型 ?? 预测的准确率 ??速度 ??建立模型的时间 ??使用模型的时间 ??强壮行 ??处理噪声和空缺值的能力 ??可伸缩性 ??磁盘常驻数据库的效率 ??可解释性 ??被模型证实的理解力和洞察力 ??规则的优越性 ??判定树的大小 ??分类规则的简洁性 第七章:分类和预测 什么是分类?什么是预测? 关于分类和预测的问题 用判定树归纳分类 贝叶斯分类 向后传播分类 基于源自关联规则挖掘概念的分类 其它的分类方法 预测 分类法的准确性 小结 用判定树归纳分类 ??判定树 ??一个类似于流程图的数结构 ??内部节点表示一个属性上的测试 ??每个分支代表一个测试的输出 ??叶结点代表类或类分布 ??判定树的生成包括两个过程 ??树的建构 ??首先所有的训练样本都在根结点 ??基于所选的属性循环的划分样本 ??树剪枝 ??识别和删除哪些反应映噪声或孤立点的分支 ??判定树的使用:为一个未知的样本分类 ??在判定树上测试样本的属性值 判定树归纳的算法 基本算法(贪心算法) 以自顶向下递归的各个击破方式构造判定树 首先,所有的训练样本都在根结点 所有属性都是分类的(如果值是连续的,它们应预先被离散化) 基于所选属性递归的划分样本 在启发式或统计度量的基础上选择测试属性(例如,信息增益) 停止划分的条件 给定节点的所有样本属于同一个类 没有剩余属性可以用来进一步划分样本-使用多数表决来分类叶节点 没有剩余的样本 属性选择度量 信息增益(ID3/C4.5) 所有的属性值被假定为分类的 修正后可以用在连续值属性上 Giniindex (IBM IntelligentMiner) 所有的属性被假定为连续值 假定对每个属性存在一些可能的分裂(split)值 需要一些其他的工具,像聚类,来得到可能的分裂值 修正后可以用在分类属性上 信息增益(ID3/C4.5) 选择具有高信息增益的属性 假定有两个类,P和N 假定样本集S包含类P的p个元素和类N的n个元素 如果S中任意的例子属于P或N,则需要决定的信息数量被定义为 GiniIndex (IBM IntelligentMiner) 如果数据集T包含来自n个类的例子,那么giniindex, gini(T) 被定义为 这里pj是T中类j的相对频率?? 如果被划分为大小分别为N1和N2 的两个子集T1和T2数据集T,那么划分数据包含来自n个类的例子的giniindex gini(T) 被定义为 提供最小ginisplit(T) 的属性被选来划分结点(需要为每个属性列举所有可能的划分点) 由判定树提取分类规则 用IF-THEN规则的形式表达知识 为每一个从根到叶的路径创建规则 沿着给定路径上的每个属性-值对形成规则前件的一个合取项 叶节点包含类预测 规则更易于理解 例如 IF age= “=30”AND student= “no” THEN buys_computer= “no” IF age

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档