- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于规则遥感影像分类方法研究
基于规则遥感影像分类方法研究
摘要:介绍了决策树C4.5算法,并利用该算法实现了对遥感数据规则的挖掘,在此基础上设计并实现了针对于C4.5规则的编辑器,通过该编辑器能够实现对规则的编辑与管理。规则编辑器的设计与实现,为在分类过程中人工的干预提供了可能。将人工干预与基于数学理论规则的自动提取相结合,尤其是在地形较复杂的地区,将有利于分类精度的提高。利用黄山市LandSat TM影像,进行了基于C4.5算法自动提取规则的遥感影像分类实验。实验结果表明,利用C4.5算法提取的分类规则准确率高,利用提取的分类规则进行的遥感影像分类效果较好。
关键词:遥感; C4.5算法;规则;分类
中图分类号:TP75文献标志码:A文章编号:1672-1098(2014)04-0046-05
遥感图像包含了大量丰富的信息资源,它是探测地物目标最丰富、最直观的信息载体[1-2]。随着遥感技术的发展,遥感信息在国民经济及科学研究中的作用越来越受到各个行业的重视。而利用遥感图像获得遥感信息的一个重要的中间环节就是遥感图像分类。遥感图像分类是指按照一定的规则或算法,根据光谱亮度、空间结构等特征将象元划分为不同的类别[3]。遥感图像分类是专题制图的基础也是遥感应用研究的基础,在遥感影像的处理过程中处于重要的地位。它的精度直接影响到生产遥感影像各种产品的质量。而在进行分类的过程中,遥感图像处理的各个环节中,分类规则的建立至关重要。分类质量好坏的关键在于是否有高质量的分类规则。好的分类规则,能提高分类精度,反之建立的分类规则不合理,将会影响分类的精度[4-6]。
基于以上原因,本文主要是针对在分类过程中建立分类规则的方法进行研究。通过利用研究区影像提取的分类规则,对其进行分类,通过分类精度来对提取的分类规则的准确度进行评价。并设计出规则编辑器,通过该编辑器能够实现对规则的编辑,以达到人工干预的目的。将分析者的分类经验与基于规则的自动提取相结合,进而达到提高规则准确率,提高分类精度的目的。
1分类规则的提取方法
基于规则的遥感影像分类方法主要包括:训练样本的选择、分类规则的建立、影像分类。其中最关键的是分类规则的提取。分类规则制定的准确程度严重影响到后续分类的精度。规则的定义是将知识用数学语言表达的过程,可以通过经验总结获得,但这对分析者的分类经验及地学知识有较高的要求;也可以通过一定的算法获取。通过算法提取的分类规则,具有一定的数学理论基础,相较于经验获取的规则,具有一定的严谨性。但是在地形较复杂的地区,如若将基于数学基础自动建立的规则与人为经验相结合,制定的规则将更具有准确性。本文将基于决策树C4.5算法开发规则编辑器,实现了规则提取过程中人工干预与自动提取的结合。
1.1C4.5算法
C4.5(classification 4.5)算法[7-16]是Quinlan在1993年提出的,它是模式识别中十分经典的算法。它是在ID3算法的基础上发展而来的。C4.5算法对ID3算法进行了改进,之后它成为了诸多算法的基础。C4.5算法在单机应用中,不仅分类准确率高而且速度快。
在C4.5算法中,它的分裂指标采用的是信息增益率(information gain ratio)而非ID3算法中采用的信息增益。用信息增益率作为分裂指标,克服了用信息增益来选择属性时偏向选择值多的属性的不足。在ID3算法的基础上,C4.5算法不仅增加了了对连续型属性和属性值空缺情况的处理,对树剪枝也有了较成熟的方法。
1) 用信息增益率来选择属性。生成决策树过程中的关键是确定分裂指标。C4.5算法中分裂指标确定的基本思想是比较各训练样本数据中属性信息增益率的大小,取其中信息增益率最大的但又不低于所有属性平均值的属性作为的一个分支节点,然后再将每一个可能的取值作为这个节点的一个分支,递归地形成决策树。
在C4.5算法中作为属性分裂指标的信息增益率定义为
GainRatio(S,A)=Gain(S,A)SplitInformation(S,A)
式中:Gain(S,A)与ID3算法中的信息增益相同,而分裂信息SplitInformation(S,A)代表了按照属性A分裂样本集S的广度和均匀性。
SplitInformation(S,A)=-∑ci=1|Si||S|log2|Si||S|
式中:S1到Sc是c个不同值的属性A分割S而形成的c个样本子集。
2) 可以处理连续数值型属性。若存在连续的描述性属性,首先必须将该连续性属性分割为离散的区间集合,对其进行离散化处理。
C4.5既可以处理离散型属性,也可以处理连续性属性。在选择某节点上的分枝属性时,对于离散型描述属性,C4.5的处理方法与ID3相
原创力文档


文档评论(0)