第7章：数据分类.pptVIP

下载本文档

62
0
约1.12万字
约 50页
2017-06-23 发布于河南
举报
版权申诉

第7章：数据分类.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第7章：数据分类

* * 这棵决策树对销售记录进行分类，指出一个电子产品消费者是否会购买一台计算机“buys_computer”。每个内部结点（方形框）代表对某个属性的一次检测。每个叶结点（椭圆框）代表一个类： buys_computers=yes 或者 buys_computers=no ? 在这个例子中，样本向量为：（age, student, credit_rating; buys_computers） ? 被决策数据的格式为: （age, student, credit_rating） ? 输入新的被决策的记录，可以预测该记录隶属于哪个类。 * * 2. 使用决策树进行分类构造决策树是采用自上而下的递归构造方法。以多叉树为例，如果一个训练数据集中的数据有几种属性值，则按照属性的各种取值把这个训练数据集再划分为对应的几个子集（分支），然后再依次递归处理各个子集。反之，则作为叶结点。决策树构造的结果是一棵二叉或多叉树，它的输入是一组带有类别标记的训练数据。二叉树的内部结点（非叶结点）一般表示为一个逻辑判断，如形式为(a = b)的逻辑判断，其中a 是属性，b是该属性的某个属性值；树的边是逻辑判断的分支结果。多叉树（ID3）的内部结点是属性，边是该属性的所有取值，有几个属性值，就有几条边。树的叶结点都是类别标记。 * * 使用决策树进行分类分为两步：第1步：利用训练集建立并精化一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。第2步：利用生成完毕的决策树对输入数据进行分类。对输入的记录，从根结点依次测试记录的属性值，直到到达某个叶结点，从而找到该记录所在的类。 * * 问题的关键是建立一棵决策树。这个过程通常分为两个阶段：建树（Tree Building）：决策树建树算法见下，这是一个递归的过程，最终将得到一棵树。剪枝（Tree Pruning）：剪枝的目的是降低由于训练集存在噪声而产生的起伏。 * * ID3算法是分类规则挖掘算法中最有影响的算法。ID3即决策树归纳（Induction of Decision Tree）。早期的ID算法只能就两类数据进行挖掘（如正类和反类）；经过改进后，现在ID算法可以挖掘多类数据。在ID3算法挖掘后，分类规则由决策树来表示。分类规则挖掘的ID3算法 * * 1. ID3算法的基本思想由训练数据集中全体属性值生成的所有决策树的集合称为搜索空间，该搜索空间是针对某一特定问题而提出的。系统根据某个评价函数决定搜索空间中的哪一个决策树是“最好”的。评价函数一般依据分类的准确度和树的大小来决定决策树的质量。如果两棵决策树都能准确地在测试集进行分类，则选择较简单的那棵。相对而言，决策树越简单，则它对未知数据的预测性能越佳。寻找一棵“最好”的决策树是一个NP完全问题。 NP完全问题是这样的问题：用确定性的算法在多项式时间内无法解决的问题。实际之中，解决这样的问题，往往是根据用启发式算法，求出近似的解。 * * ID3使用一种自顶向下的方法在部分搜索空间创建决策树，同时保证找到一棵简单的决策树—可能不是最简单的。 ID3算法的基本思想描述如下： step 1．任意选取一个属性作为决策树的根结点，然后就这个属性所有的取值创建树的分支； step 2．用这棵树来对训练数据集进行分类，如果一个叶结点的所有实例都属于同一类，则以该类为标记标识此叶结点；如果所有的叶结点都有类标记，则算法终止； step 3．否则，选择一个能够最好地将训练集分类的属性，该属性作为该节点的测试属性。 Step 4. 对测试属性中的每一个值创建相应的一个分支，并据此划分样本。需要注意的是，在ID3算法中，属性值都是离散的，如果属性值是连续的，那么要通过数据变换，把属性值化为离散的。 Step 5. 使用同样的过程自顶向下地递归，直到至少满足下面三个条件中的一个时，才停止递归。 1）给定节点的所有样本都属于同一类。 2）没有剩余的属性可以用来进一步划分。 3）继续划分得到的改进不明显 * * 这个算法一定可以创建一棵基于训练数据集的正确的决策树，然而，这棵决策树不一定是简单的。显然，不同的属性选取顺序将生成不同的决策树。因此，适当地选取属性将生成一棵简单的决策树。在ID3算法中，采用了一种基于信息的启发式的方法来决定如何选取属性。启发式方法选取具有最高信息量的属性，也就是说，生成最少分支决策树的那个属性。 * * 属性选择度量决策树算法的一个重要问题就是在树的各个内部节点处寻找一个属性，该属性能够最好地将训练集进行分类。ID3通过划分提供的信息增益选择测试属性。在信息论中，熵表示的是不确定性的量度。信息论的创始人香农在其著作