决策树概述.docx

下载文档

39
0
约3.4千字
约 6页
2016-12-25 发布于重庆
举报
版权申诉
保障服务

决策树概述.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

决策树概述(一)决策树算法1、决策树描述一颗决策树的内部结点是属性或属性的集合，叶节点是所要学习划分的类，内部结点的属性称为测试属性。当经过一批训练实例集的训练产生一颗决策树，决策树可以根据属性的取值对一个未知实例集进行分类。使用决策树对实例进行分类的时候，有树根开始对该对象的属性逐渐测试其值，并且顺着分支向下走，直至到达某个叶结点，此叶结点代表的类即为该对象所处的类。决策树是一个可以自动对数据进行分类的树型结构，是树形结构的知识表示，可以直接转换为决策规则，它能被看作一棵树的预测模型，树的根节点是整个数据集合空间，每个分节点是一个分裂问题，它是对一个单一变量的测试，给测试将数据集合空间分割成两个或更多块，每个叶结点是带有分类的数据分割。决策树也可以解释成一种特殊形式的规则集，其特征是规则的层次组织关系。决策树算法主要是用来学习以离散型变量作为属性类型的学习方法。连续型变量必须被离散化才能被学习。表1给出了决策树与自然树的对应关系以及在分类问题中的代表含义。表1自然树对应决策树中的意义分类问题中的表示意义树根根节点训练实例整个数据集空间杈内部（非叶）结点、决策结点待分类对象的属性（集合）树枝分支属性的一个可能取值叶子叶结点、状态结点数据分割（分类结果）2、决策树的类型决策树的内节点的测试属性可能是单变量的，即每个内节点只包含一个属性。也可能是多变量的，即存在包含多个属性的内节点。根据测试属性的不同属性值的个数，可能使得每个内节点有两个或多个分支。如果每个内节点只有两个分支则称之为二叉决策树。每个属性可能是值类型，也可能是枚举类型。分类结果既可能是两类又可能是多类，如果二叉决策树的结果只能有两类则称之为布尔决策树。布尔决策树可以很容易以析取范式的方法表示，并且在决策树学习的最自然的情况就是学习析取概念。3、决策树的构造算法决策树的构造算法可通过训练集T完成，其中T={x, },而x=(,,…, )为一个训练实例，它有n个属性，分别列于属性表（,,…，），其中表示属性的取值。∈C={, ,..., }为X的分类结果。算法分以下几步：从属性表中选择属性作为分类属性；若属性的取值有个，则将T划分为个子集，…, ,其中 ={x,C|x,c}∈T,且X的属性取值A为第个值；从属性表中删除属性；对于每一个（1≤j≤），令=；如果属性表非空，返回（1），否则输出。（二）ID3学习算法1、基本原理信息熵在信息论中称为平均信息量，是对被传送的信息进行度量所采用的一种平均值。信源中被传送的信息包括有限数目的互斥并联合完备的事件，它们都以一定的概率出现，用数学式子来表示就是:一组事件,… ,，以既定概率p(),…,p()出现，其平均值H(X)就是信息熵，它的值等于每个事件的(自)信息量I(X)的数学期望，即:ID3算法的步骤如下：(1)选出整个训练实例集X的规模为W的随机子集Xl (W称为窗口规模，子集称为窗口)；(2)以使得信息熵的值最小为标准，选取每次的测试属性，形成当前窗口的决策树；(3)顺序扫描所有训练实例，找出当前的决策树的例外，如果没有例外则训练结束；(4)组合当前窗口的一些训练实例与某些在(3)中找到的例外形成新的窗口，转(2)。2、ID3算法的形式化模型ID3基本原理是基于两类分类问题，其数学模型可描述如下:设= **…*是n维有穷向量空间，其中是有穷离散符号集，E中的元素e=,，…，叫做实例，其中 ∈, J=1,2, …, n。设P和N是E和F的两个实例集，分别叫正例集和反例集。假设向量空间E中的正例集PE和反例集NE的大小分别为P和N, ID3基于下列两个假设：(1)在向量空间E上的一棵正确决策树，对任意例子的分类概率同E中的正、反例的概率一致。(2)一棵决策树能对一实例作出正确类别判断所需的信息量(原集合E的熵)为:如果以属性A作为决策树的根，A具有v个值（、…），它将E分为v个子集（,…），假设中含有个正例和个反例，子集的信息熵为：以属性A为根分类后的信息熵（用A分类后上的期望值）为E(A):因此，以属性为根的信息增益I（A）是：ID3选择使I(A)最大(即E(A)最小)的属性A作为根结点。对A的不同的取值对应的E的v个子集递归调用上述过程，生成A的子结点，，…，。ID3的基本原理是基于两类分类问题，但很容易扩展到多类。设样本集S共有C类样本，每类样本数为Pi,(i=1, 2, 3,…,c)。若以属性A作为决策树的根，A具有v个值，，…，，它将E分成v个子集[，，…，]，假设中含有j类样本的个数为=1，2，…，c，那么子集的信息量是E()为：以A为根分类的信息熵为：选择属性A使公式6中E(A)最小，信息增益也将增大。（三）C4.5算法在C4.5的决策树中，每个结点都保存了可用于计算E值的属性的信息，这些信息由属性的每个取