决策树与聚类分析在土地评价中的应用-农业工程学报.doc

下载文档 降价啦

7
0
约8.19千字
约 8页
2017-06-14 发布于天津
举报
版权申诉
保障服务

决策树与聚类分析在土地评价中的应用-农业工程学报.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类支持下决策树模型在耕地评价中的应用田剑，胡月明2※，王长委2，刘建敏1 （1合肥工业大学资源与环境工程学院，合肥 230009；2华南农业大学信息学院，广州 510642）摘要：为了挑选合理的学习样本，增强决策树模型在耕地评价应用的有效性，本文运用聚类方法挑选学习样本，用改进C5.0决策树算法建立耕地评价模型，提出一种新的评价思路。运用此方法以广东省龙川县耕地为研究对象，以试验法挑选出六种聚类结果的学习样本，确定4000个样本作为最终的学习样本；利用决策代价权重来改进的决策树评价模型，最终建立的评价模型的预测精度达到94.92%，满足了实际情况的需要。试验结果表明综合运用聚类和决策树模型进行耕地评价是可行的，其建立的评价模型具有精度高、鲁棒性和易理解性等特点。关键词：决策树；聚类；耕地评价；龙川县中国分类号：TP183 文献标识码：A 0 引言随着数据挖掘技术的逐步成熟，各种挖掘方法在土地科学中也得到了进一步的应用[1-2]，有效地提高了土地管理的水平。耕地评价工作是土地管理的基础，在耕地评价中影响因素数据较为复杂，传统评价方法——因素法针对不同耕地区域，大多掺入了人为因素从数据挖掘的角度来看，评价实质上属于分类问题。MAPGIS系统环境下，从龙川县2004年1：10000Discrete standard of Evaluation factor 等级 I II III IV V 地形坡度 2° 2°~5° 5°~8° 8°~15° 15° 田面坡度 2° 2°~5° 5°~8° 8° 地下水位 60cm 30~60cm 30cm 土层厚度 100cm 60~100cm 30~60cm 30cm 土壤质地轻壤、中壤、重壤沙壤土粘土剖面构型通体壤、壤/砂/壤壤/粘/壤砂/粘/粘、壤/粘/粘粘/砂/粘、通体粘有机质含量 3.0% 2.0%~3.0% 1.0%~2.0% 0.6%~1.0% 0.6% pH值 6.0~7.9 5.5~6.0 5.0~5.5 4.5~5.0 4.5 灌溉保证率灌溉条件充足灌溉条件缺乏排水条件排水体系健全排水体系基本健全排水体系一般无排水体系 1.2 研究方法 1.2.1 聚类聚类分析提供由个别数据对象到数据对象所指派到簇的抽象，这些簇原型可以用作大量数据分析和数据处理技术的基础。利用聚类分析抽取学习样本，首先将数据集T划分为M个不相交的“类”，然后再从这M个类中的数据对象分别进行随机抽取，这样就可以最终获得聚类采样数据子集，按聚类结果抽取的样本更具有典型性和代表性，实用效果较好。聚类分析来选择一个神经元的备选子集，当聚类标准取的较小和删除标准取的较小时，所聚成的类的数目很多，这些类的中心是能够均匀地覆盖样本空间，使输入的样本均匀的覆盖在备选的样本空间中。唐南奇[9]等人验证了聚类抽取训练样本对BP神经网络在农用地分等中的有效性，提取的学习样本具有典型性。在相关领域的监督分类中聚类方法也能有效地抽取学习样本[10-11]。 1.2.2 决策树决策树建立过程是不断将数据进行切分的过程，每次切分对应着一个节点，在C5.0算法中采用属性增益率最大作为节点，基于信息熵的方法递归形成决策树。下面介绍计算评价属性A为例计算信息增益率GainRatio(A)，S表示一组样本，pi是任意样本属于Bi的概率，用Si/S表示。假定类别属性具有n个不同的值，定义n个不同类Bi（i=1，…，n）。设Si是类B中的样本数。 Info(S)表示当前样本中的信息熵，计算如下：（1）设属性A具有n个不同值{A，,A2,,…，An}，利用A将S划分为n个子集{S1,S2,…,Sn}，其中Sj为S中在A中具有Aj的样本，Sij是子集Sj中类Bi样本数。Info(S,A)表示利用属性A划分S中所需要信息熵，计算如下：（2）分裂信息SplitInfo()是S关于属性A的各值的熵，用以消除具有大量属性值属性的偏差计算如下：（3）（4）（5）决策树C5.0算法是在C4.5基础上采用了boosting技术[12]，主要思想是：每个新模型的建立基于前面模型的结果，最后一个模型集中于正确分类前面模型未正确分类的那些实例，通常是通过为各个实例指定权重来完成的，对未正确的分类的样本被更频繁的取样，使决策树模型在分类训练数据的能力上彼此补充。 2 模型的建立 2.1 抽取学习样本决策树算法是从样本中学习规则，属于监督分类方法，因此学习样本的好坏对决策树模型的性能影响较大。本文依据渐进抽样原则，采用聚类分析中K-means算法来对原始数据进行聚类抽样。将采集的龙川县的耕地30281个评