基于专家知识的决策树分类 z.docVIP

下载本文档

79
0
约4.01千字
约 8页
2018-08-12 发布于贵州
举报
版权申诉

基于专家知识的决策树分类 z.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于专家知识的决策树分类 z

基于专家知识的决策树分类 z 可以将多源数据用于影像分类当中，这就是专家知识的决策树分类器，本专题以ENVI中Decision Tree为例来叙述这一分类器。本专题包括以下内容： l专家知识分类器概述 l知识(规则)定义 lENVI中Decision Tree的使用概述基于知识的决策树分类是基于遥感影像数据及其他空间数据，通过专家经验总结、简单的数学统计和归纳方法等，获得分类规则并进行遥感分类。分类规则易于理解，分类过程也符合人的认知过程，最大的特点是利用的多源数据。如图1所示，影像+DEM就能区分缓坡和陡坡的植被信息，如果添加其他数据，如区域图、道路图土地利用图等，就能进一步划分出那些是自然生长的植被，那些是公园植被。图1.JPG 图1专家知识决策树分类器说明图专家知识决策树分类的步骤大体上可分为四步：知识(规则)定义、规则输入、决策树运行和分类后处理。 1.知识(规则)定义规则的定义是讲知识用数学语言表达的过程，可以通过一些算法获取，也可以通过经验总结获得。 2.规则输入将分类规则录入分类器中，不同的平台有着不同规则录入界面。 3.决策树运行运行分类器或者是算法程序。 4.分类后处理这步骤与监督/非监督分类的分类后处理类似。知识(规则)定义分类规则获取的途径比较灵活，如从经验中获得，坡度小于20度，就认为是缓坡，等等。也可以从样本中利用算法来获取，这里要讲述的就是C4.5算法。利用C4.5算法获取规则可分为以下几个步骤： (1)多元文件的的构建：遥感数据经过几何校正、辐射校正处理后，进行波段运算，得到一些植被指数，连同影像一起输入空间数据库；其他空间数据经过矢量化、格式转换、地理配准，组成一个或多个多波段文件。 (2)提取样本，构建样本库：在遥感图像处理软件或者GIS软件支持下，选取合适的图层，采用计算机自动选点、人工解译影像选点等方法采集样本。 (3)分类规则挖掘与评价：在样本库的基础上采用适当的数据挖掘方法挖掘分类规则，后基于评价样本集对分类规则进行评价，并对分类规则做出适当的调整和筛选。这里就是C4.5算法。 4.5算法的基本思路基于信息熵来修枝剪叶，基本思路如下：从树的根节点处的所有训练样本D0开始，离散化连续条件属性。计算增益比率，取GainRatio(C0)的最大值作为划分点V0，将样本分为两个部分D11和D12。对属性C0的每一个值产生一个分支，分支属性值的相应样本子集被移到新生成的子节点上，如果得到的样本都属于同一个类，那么直接得到叶子结点。相应地将此方法应用于每个子节点上，直到节点的所有样本都分区到某个类中。到达决策树的叶节点的每条路径表示一条分类规则，利用叶列表及指向父结点的指针就可以生成规则表。图2.JPG 图2规则挖掘基本思路算法描述如下：算法：从空间数据集(多波段文件)中挖掘分类规则输入：训练样本输出：分类规则表方法：一、读取数据集名字二、读取所有的训练样本 A、读取属性信息C、原始类E、样本值A，并将样本划分为训练样本(2/3)和评价样本(1/3)。 B、属性信息C可以是连续(DISCRETE)或离散(CONTINUOUS)的，分别将属性注上这两种标记；若属性是DISCERTE，读取其可能取得值，并都存储在一个列表中；每一个属性都有一个标记，一个给定的属性编号及初始化的取值列表均存储于一个属性的数据结构中，并将数据结构存储在一个哈希表中。 C、原始类E当作一个附加属性信息储存在属性列表中。 D、以增量方式读取每一个样本A，将所有的样本储存在一个表中，每一行代表一个样本。三、利用数据集构建树 A、离散化连续条件属性C DISCRETE，获得的分割点集T(t1，t2…)作为条件属性C的新的取值。 B、分别计算所有条件属性的增益比率GainRatio(C)，取增益比率值最大的条件属性作为树的划分节点，其值或范围作为划分值V(v1，v2…)来生成树的分枝。 C、判断该层与每一个等价子集的原始类类别是否一致。若一致，生成叶子结点。否则，继续计算增益比率GainRatio(C)和选择条件属性C，得到树的节点和划分值V，直至所有的样本已分类完毕。四、测试生成树将测试样本C′带入树中，当某一测试样本的分类预测错误时，记录分类错误的计数，并将测试样本添加到训练样本中，转向步骤三，重新构建树。否则，输出分类树五、抽取分类规则到达树的叶节点的每条路径表示一条分类规则从树中抽取分类规则，打印规则和分类的详细信息 C4.5网上有源代码下载，vc和c++版本都能获得。 Decision Tree的使用一、规则获取选取Landsat TM5影像和这个地区对应的DEM数据，影像和DEM经过了精确配准。规则如下描述： Class1(朝北缓坡植被)：NDVI 0.3,s