决策树与聚类分析在土地评价中的应用-农业工程学报.doc

决策树与聚类分析在土地评价中的应用-农业工程学报.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树与聚类分析在土地评价中的应用-农业工程学报.doc

聚类支持下决策树模型在耕地评价中的应用 田 剑,胡月明2※,王长委2,刘建敏1 (1合肥工业大学资源与环境工程学院,合肥 230009;2华南农业大学信息学院,广州 510642) 摘 要:为了挑选合理的学习样本,增强决策树模型在耕地评价应用的有效性,本文运用聚类方法挑选学习样本,用改进C5.0决策树算法建立耕地评价模型,提出一种新的评价思路。运用此方法以广东省龙川县耕地为研究对象,以试验法挑选出六种聚类结果的学习样本,确定4000个样本作为最终的学习样本;利用决策代价权重来改进的决策树评价模型,最终建立的评价模型的预测精度达到94.92%,满足了实际情况的需要。试验结果表明综合运用聚类和决策树模型进行耕地评价是可行的,其建立的评价模型具有精度高、鲁棒性和易理解性等特点。 关键词:决策树;聚类;耕地评价;龙川县 中国分类号:TP183 文献标识码:A 0 引言 随着数据挖掘技术的逐步成熟,各种挖掘方法在土地科学中也得到了进一步的应用[1-2],有效地提高了土地管理的水平。耕地评价工作是土地管理的基础,在耕地评价中影响因素数据较为复杂,传统评价方法——因素法针对不同耕地区域,大多掺入了人为因素从数据挖掘的角度来看,评价实质上属于分类问题。MAPGIS系统环境下,从龙川县2004年1:10000Discrete standard of Evaluation factor 等级 I II III IV V 地形坡度 2° 2°~5° 5°~8° 8°~15° 15° 田面坡度 2° 2°~5° 5°~8° 8° 地下水位 60cm 30~60cm 30cm 土层厚度 100cm 60~100cm 30~60cm 30cm 土壤质地 轻壤、中壤、重壤 沙壤土 粘土 剖面构型 通体壤、壤/砂/壤 壤/粘/壤 砂/粘/粘、壤/粘/粘 粘/砂/粘、通体粘 有机质含量 3.0% 2.0%~3.0% 1.0%~2.0% 0.6%~1.0% 0.6% pH值 6.0~7.9 5.5~6.0 5.0~5.5 4.5~5.0 4.5 灌溉保证率 灌溉条件充足 灌溉条件缺乏 排水条件 排水体系健全 排水体系 基本健全 排水体系一般 无排水体系 1.2 研究方法 1.2.1 聚类 聚类分析提供由个别数据对象到数据对象所指派到簇的抽象,这些簇原型可以用作大量数据分析和数据处理技术的基础。利用聚类分析抽取学习样本,首先将数据集T划分为M个不相交的“类”,然后再从这M个类中的数据对象分别进行随机抽取,这样就可以最终获得聚类采样数据子集,按聚类结果抽取的样本更具有典型性和代表性,实用效果较好。聚类分析来选择一个神经元的备选子集,当聚类标准取的较小和删除标准取的较小时,所聚成的类的数目很多,这些类的中心是能够均匀地覆盖样本空间,使输入的样本均匀的覆盖在备选的样本空间中。唐南奇[9]等人验证了聚类抽取训练样本对BP神经网络在农用地分等中的有效性,提取的学习样本具有典型性。在相关领域的监督分类中聚类方法也能有效地抽取学习样本[10-11]。 1.2.2 决策树 决策树建立过程是不断将数据进行切分的过程,每次切分对应着一个节点,在C5.0算法中采用属性增益率最大作为节点,基于信息熵的方法递归形成决策树。下面介绍计算评价属性A为例计算信息增益率GainRatio(A),S表示一组样本,pi是任意样本属于Bi的概率,用Si/S表示。假定类别属性具有n个不同的值,定义n个不同类Bi(i=1,…,n)。设Si是类B中的样本数。 Info(S)表示当前样本中的信息熵,计算如下: (1) 设属性A具有n个不同值{A,,A2,,…,An},利用A将S划分为n个子集{S1,S2,…,Sn},其中Sj为S中在A中具有Aj的样本,Sij是子集Sj中类Bi样本数。Info(S,A)表示利用属性A划分S中所需要信息熵,计算如下: (2) 分裂信息SplitInfo()是S关于属性A的各值的熵,用以消除具有大量属性值属性的偏差计算如下: (3) (4) (5) 决策树C5.0算法是在C4.5基础上采用了boosting技术[12],主要思想是:每个新模型的建立基于前面模型的结果,最后一个模型集中于正确分类前面模型未正确分类的那些实例,通常是通过为各个实例指定权重来完成的,对未正确的分类的样本被更频繁的取样,使决策树模型在分类训练数据的能力上彼此补充。 2 模型的建立 2.1 抽取学习样本 决策树算法是从样本中学习规则,属于监督分类方法,因此学习样本的好坏对决策树模型的性能影响较大。本文依据渐进抽样原则,采用聚类分析中K-means算法来对原始数据进行聚类抽样。将采集的龙川县的耕地30281个评

您可能关注的文档

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档