决策树及应用..docxVIP

下载本文档

22
0
约6.46千字
约 13页
2017-01-11 发布于重庆
举报
版权申诉

决策树及应用..docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树及应用.

第5章决策树及应用5.1 问题概述各个领域的人工智能实现，常常要涉及这样的问题：从实际问题中提取数据，并从数据中提炼一组数据规则，以支持知识推理实现智能的功能。知识规则一般以“原因—结果”形式表示。一般地，获取知识规则可以通过样本集，建模实现。由于推理结果是有限个，即的取值是有限的，所以这样的建模属于分类问题。利用神经网络可以实现分类问题建模，但当影响因素变量的个数较大时，建模后的知识规则不易表示，特别地，当默写变量的取值缺失时，即使神经网络具有容错性，也会在一定程度上影响分类结果的不确定性。实际应用中，决定分类结果可能只是几个主要影响因素取值，不依赖全部因素变量，因此，知识规则的提取，可以转换为这样的问题：某一分类下哪些变量是主要的影响因素，这些主要影响因素与分类结果的因素规则表示如何获取？决策树就是解决这些问题的方法之一。5.2 决策树概述决策树学习算法是一组样本数据集（一个样本数据也可以称为实例）为基础的一种归纳学习算法，它着眼于从一组无次序、无规则的样本数据（概念）中推理出决策树表示形式的分类规则。假设这里的样本数据应该能够用“属性—结论”。决策时是一个可以自动对数据进行分类的树形结构，是树形结构的知识表示，可以直接转换为分类规则。它能被看做基于属性的预测模型，树的根节点是整个数据集空间，每个分结点对应一个分裂问题，它是对某个单一变量的测试，该测试将数据集合空间分割成两个或更多数据块，每个叶结点是带有分类结果的数据分割。决策树算法主要针对“以离散型变量作为属性类型进行分类”的学习方法。对于连续性变量，必须被离散化才能被学习和分类。基于决策树的决策算法的最大的有点就在于它在学习过程中不需要了解很多的背景知识，只从样本数据及提供的信息就能够产生一颗决策树，通过树结点的分叉判别可以使某一分类问题仅与主要的树结点对应的变量属性取值相关，即不需要全部变量取值来判别对应的范类。5.2.1 决策树基本算法一颗决策树的内部结点是属性或属性的集合，儿叶结点就是学习划分的类别或结论，内部结点的属性称为测试属性或分裂属性。当通过一组样本数据集的学习产生了一颗决策树之后，就可以对一组新的未知数据进行分类。使用决策树对数据进行分类的时候，采用自顶向下的递归方法，对决策树内部结点进行属性值的判断比较并根据不同的属性值决定走向哪一条分支，在叶节点处就得到了新数据的类别或结论。从上面的描述可以看出从根结点到叶结点的一条路径对应着一条合取规则，而整棵决策树对应着一组合取规则。C4321AB图 5.1 简单决策树根据决策树内部结点的各种不同的属性，可以将决策树分为以下几种：（1）当决策树的每一个内部结点都只包含一个属性时，称为单变量决策树；当决策树存在包含多个变量的内部结点时，称为多变量决策树。（2）根据测试属性的不同属性值的个数，可能使得每一个内部结点有两个或者是多个分支，如果每一个内部结点只有两个分支则称之为二叉树决策。（3）分类结果可能是两类也可能是多类，二叉树决策的分类结果只能有两类，股也称之为布尔决策树。5.2.2 CLS算法CLS学习算法是1966年有Hunt等人提出的。它是最早的决策树学习算法。后来的许多决策树算法都可以看作是CLS学习算法的改进与更新。CLS的算法的思想就是从一个空的决策出发，根据样本数据不断增加新的分支结点，直到产生的决策树能够正确地将样本数据分类为止。CLS算法的步骤如下：（1）令决策树T的初始状态只含有一个树根（X,Q），其中X是全体样本数据的集合，Q是全体测试属性的集合。（2）如果T中所有叶结点（）都有如下状态：或者中的样本数据都是属于同一个类，或者为空，则停止执行学习算法，学习的结果为T。（3）否则，选择一个不具有（2）所描述状态的叶节点（）.（4）对于，按照一定规则选取属性，设被b的不同取值分为m个不同的子集，，从（）伸出m个分支，每个分支代表属性b的一个不同取值，从而形成m个新的叶结点（）。（5）转（2）。在算法步骤（4）中，并没有明确地说明按照怎样的规则来选取测试属性，所以CLS有很大的改进空间，而后来很多的决策树学习算法都是采取了各种各样的规则和标准来选取测试属性，所以说后来的各种决策树学习算法都是CLS学习算法的改进。5.2.3 信息熵Shannon在1948年提出并发展了信息论的观点，主张用数学方法度量和研究信息，提出了以下的一些概念。决策树学习算法是以信息熵为基础的，这些概念将有助于理解后续的算法。（1）自信息量：在收到之前，接收者对信源发出的不确定性定义为信息符号的自信息量，其中是取值为的概率。自信息量反映了接收的不确定性，自信息量越大，不确定性越大。（2）信息熵：自信息量只能反映符号的不确定性，而信息上可以用来度量整个信源X整体的不确定性。