第5章数据挖掘-2总结.ppt

下载文档 降价啦

8
0
约1.3万字
约 61页
2016-08-06 发布于湖北
举报
版权申诉
保障服务

第5章数据挖掘-2总结.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 分类分类分类的目的是提出一个分类函数或分类模型（即分类器），通过分类器将数据对象映射到某一个给定的类别中。数据分类可以分为两步进行。第一步建立模型，用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。这一步也称作有监督的学习，导出模型是基于训练数据集的，训练数据集是已知类标记的数据对象。第二步使用模型对数据对象进行分类。首先应该评估模型的分类准确度，如果模型准确度可以接受，就可以用它来对未知类标记的对象进行分类。如果一个学习所获模型的准确率经测试被认为是可以接受的，那么就可以使用这一模型对未来数据或对象（其类别未知）进行分类。决策树决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。计数年龄收入学生信誉归类：买计算机？ 64 青高否良不买 64 青高否优不买 128 中高否良买 60 老中否良买 64 老低是良买 64 老低是优不买 64 中低是优买 128 青中否良不买 64 青低是良买 132 老中是良买 64 青中是优买 32 中中否优买 32 中高是良买 63 老中否优不买 1 老中否优买谁在买计算机？年龄？学生？信誉？买青中老否是优良不买买买不买决策树的用途决策树算法决策树算法决策树的表示决策树的基本组成部分：决策结点、分支和叶子。年龄？学生？信誉？买青中老否是优良不买买买不买决策树中最上面的结点称为根结点。是整个决策树的开始。每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或者决策. 通常对应待分类对象的属性。每个叶结点代表一种可能的分类结果在沿着决策树从上到下的遍历过程中，在每个结点都有一个测试。对每个结点上问题的不同测试输出导致不同的分枝，最后会达到一个叶子结点。这一过程就是利用决策树进行分类的过程，利用若干个变量来判断属性的类别 ID3算法 ID3算法是一种经典的决策树学习算法，算法的基本思想是，以信息熵为度量，用于决策树节点的属性选择，每次优先选取信息量最多的属性，亦即能使熵值变为最小的属性，以构造一颗熵值下降最快的决策树，到叶子节点处的熵值为0。此时，每个叶子节点对应的实例集中的实例属于同一类。熵（Entropy）刻画了任意样本集的纯度。熵值越小，划分的纯度越高，对样本分类的不确定性越低。信息量大小的度量 Shannon1948年提出的信息论理论。事件ai的信息量I（ ai ）可如下度量：其中p(ai)表示事件ai发生的概率。在决策树分类中，假设S是训练样本集合，|S|是训练样本数，样本划分为n个不同的类C1,C2,….Cn，这些类的大小分别标记为|C1|， |C2|，…..,|Cn|。则任意样本S属于类Ci的概率为： ID3 –信息量大小的度量 Entropy（S，A）=∑（|Sv|/|S|）* Entropy（Sv） ∑是属性A的所有可能的值v,Sv是属性A有v值的S子集 |Sv|是Sv 中元素的个数；|S|是S中元素的个数。 Gain（S，A）是属性A在集合S上的信息增益 Gain（S，A）= Entropy（S） -Entropy（S，A） Gain（S，A）越大，说明选择测试属性对分类提供的信息越多 ID3 决策树建立算法 1 决定分类属性； 2 对目前的数据表，建立一个节点N 3 如果数据库中的数据都属于同一个类，N就是树叶，在树叶上标出所属的类 4 如果数据表中没有其他属性可以考虑，则N也是树叶，按照少数服从多数的原则在树叶上标出所属类别 5 否则，根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性 6 节点属性选定后，对于该属性中的每个值：从N生成一个分支，并将数据表中与该分支有关的数据收集形成分支节点的数据表，在表中删除节点属性那一栏如果分支数据表非空，则运用以上算法从该节点建立子树。计数年龄收入学生信誉归类：买计算机？ 64 青高否良不买 64 青高否优不买 1