[小学教育]数据挖掘课件.pptVIP

下载本文档

17
0
约1.05万字
约 72页
2018-02-11 发布于浙江
举报
版权申诉

[小学教育]数据挖掘课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[小学教育]数据挖掘课件

数据挖掘第七章:分类和预测 ??什么是分类?什么是预测? ??关于分类和预测的问题 ??用判定树归纳分类 ??贝叶斯分类 ??向后传播分类 ??基于源自关联规则挖掘概念的分类 ??其它的分类方法 ??预测 ??分类法的准确性 ??小结分类和预测分类: 预测分类标号在分类属性中的训练样本集和值(类标号)的基础上分类数据(建立模型)并使用它分类新数据预测: 为连续值函数建模,预测未知的或缺省值典型应用信誉证实选择购物医疗诊断治疗的性能分析分类—一个两步的过程假设每一元组/样本属于一个预定的类,由一个类标号属性的属性确定用来建立模型的元组集被称为训练样本集模型可用分类规则,判定树或数学公式表示模型的使用: 为了分类将来或未知的对象评估模型的准确性对于每个测试样本,将已知的的类标号和该样本的模型分类结果进行比较准确率是正确被模型分类的测试样本的百分比测试集独立于样本集,否则会出现过分适合的现象有指导学习和无指导学习有指导学习(分类) 有指导:类标号伴随着训练数据,只是训练数据所属的类新数据在训练集的基础上进行分类无指导学习(聚类) 训练数据的类标号未知给定一个度量和观测值班员集,意图确定数据中类或聚类的存在第七章:分类和预测什么是分类?什么是预测? 关于分类和预测的问题用判定树归纳分类贝叶斯分类向后传播分类基于源自关联规则挖掘概念的分类其它的分类方法预测分类法的准确性小结关于分类和预测的问题(1):数据准备数据清理预处理数据是为了减少噪声和处理空缺值相关性分析(特征选择) 删除不相关和冗余属性数据变换概化和/或规格化数据关于分类和预测的问题(2): 评估分类模型 ?? 预测的准确率 ??速度 ??建立模型的时间 ??使用模型的时间 ??强壮行 ??处理噪声和空缺值的能力 ??可伸缩性 ??磁盘常驻数据库的效率 ??可解释性 ??被模型证实的理解力和洞察力 ??规则的优越性 ??判定树的大小 ??分类规则的简洁性第七章:分类和预测什么是分类?什么是预测? 关于分类和预测的问题用判定树归纳分类贝叶斯分类向后传播分类基于源自关联规则挖掘概念的分类其它的分类方法预测分类法的准确性小结用判定树归纳分类 ??判定树 ??一个类似于流程图的数结构 ??内部节点表示一个属性上的测试 ??每个分支代表一个测试的输出 ??叶结点代表类或类分布 ??判定树的生成包括两个过程 ??树的建构 ??首先所有的训练样本都在根结点 ??基于所选的属性循环的划分样本 ??树剪枝 ??识别和删除哪些反应映噪声或孤立点的分支 ??判定树的使用:为一个未知的样本分类 ??在判定树上测试样本的属性值判定树归纳的算法基本算法(贪心算法) 以自顶向下递归的各个击破方式构造判定树首先,所有的训练样本都在根结点所有属性都是分类的(如果值是连续的,它们应预先被离散化) 基于所选属性递归的划分样本在启发式或统计度量的基础上选择测试属性(例如,信息增益) 停止划分的条件给定节点的所有样本属于同一个类没有剩余属性可以用来进一步划分样本-使用多数表决来分类叶节点没有剩余的样本属性选择度量信息增益(ID3/C4.5) 所有的属性值被假定为分类的修正后可以用在连续值属性上 Giniindex (IBM IntelligentMiner) 所有的属性被假定为连续值假定对每个属性存在一些可能的分裂(split)值需要一些其他的工具,像聚类,来得到可能的分裂值修正后可以用在分类属性上信息增益(ID3/C4.5) 选择具有高信息增益的属性假定有两个类,P和N 假定样本集S包含类P的p个元素和类N的n个元素如果S中任意的例子属于P或N，则需要决定的信息数量被定义为 GiniIndex (IBM IntelligentMiner) 如果数据集T包含来自n个类的例子,那么giniindex, gini(T) 被定义为这里pj是T中类j的相对频率?? 如果被划分为大小分别为N1和N2 的两个子集T1和T2数据集T，那么划分数据包含来自n个类的例子的giniindex gini(T) 被定义为提供最小ginisplit(T) 的属性被选来划分结点（需要为每个属性列举所有可能的划分点）由判定树提取分类规则用IF-THEN规则的形式表达知识为每一个从根到叶的路径创建规则沿着给定路径上的每个属性－值对形成规则前件的一个合取项叶节点包含类预测规则更易于理解例如 IF age= “=30”AND student= “no” THEN buys_computer= “no” IF age