数据挖掘在造林成活率中应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在造林成活率中应用

数据挖掘在造林成活率中应用    [摘要] 粗糙集理论作为一种新型软计算方法,可以有效地分析和处理具有不完备、不确定性特征的信息,已经在诸多领域得到成功应用。在简要介绍粗糙集基本理论的基础上,以林业中造林成活率数据为例,讨论粗糙集在数据挖掘领域的应用。      [关键词] 粗糙集理论 数据挖掘 约简 决策表   数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的人们事先未知、但潜在有用的信息和知识的过程。粗糙集理论作为一种全新的数学概念,为处理具有不完整、不一致及不确定性特征的信息提供了新的有效工具。它由波兰学者PawlakZ在1982年首次提出的,1991年Pawlak教授出版专著,全面系统地阐述了RS理论。目前有关粗糙集的研究日益受到国内外学术界的重视,在数据挖掘领域,粗糙集最初主要用于分类,而今有关粗糙集的研究已深入到该领域的各个方面。      一、粗糙集理论   1.信息系统   信息系统是有序对S=(U, A∪{d}), 其中U非空有限集合,称为全域。A 是非空有限的条件属性集合。d 是一个决策属性。A∩{d}=Φ。全域的元素被称为对象或者实例。      2.不可分关系      设S=(U, A∪{d}) 是信息系统,在任意子集BA 上,可定义等价关系IND(B), 称为不可分关系, 定义为IND(B)={(x, y)∈U×U: x(a)=y(a) 对每个a∈B}      3.上近似和下近似      (正区域) 给定信息系统S=(U, A∪{d}), 设XU 是一组对象, BA 是一组属性。X的相对于B的下近似是B*(X)={x∈U:[x]BX}。 X相对于B的上近似B*(X) = {x∈U: [x]B∩X≠Φ}。 决策属性d 相对于B的正区域是POSB(d)=∪{B*(X) :X∈U/IND(d)}。   4.依赖度   属性集D以程度k(P,D)依赖于S中A的子集P,若k(P,D)=|(POSP(d)|/|POSA(d)|   5.约简与核   设有两个属性集A、B,A为B的真子集,如果不可分辨关系θA定义的等价类与θB定义的等价类相同,则称B可约简为A.决策表的约简为去除冗余属性并保证分类正确的最小条件属性集.一个决策表的约简不是唯一的,这一系列约简的交集为决策表的核,所以核中的属性是影响分类的重要属性。      二、粗糙集理论在数据挖掘中的应用   由于粗糙集理论提供了不同于其他常规方法的新思想,以及它不需先验知识,只依赖数据内部关系,适宜处理不完备数据等特性,所以被广泛用于数据挖掘领域以解决其他方法难以解决或解决效果欠佳的问题.一般来说,其主要应用分为以下两大类。   1.属性的约简   设C,DA分别是条件和决策属性集。我们说C′C 是D-约简(关于D的约简),如果C′是C的真子集,使得γ(C,D)=γ(C′,D)。      求约简的方法: 区分矩阵      信息系统S=(U, A∪{d})的区分矩阵是一个对称|U|×|U|矩阵。矩阵的每一项cij定义为:cij ={a∈A|xi(a)≠xj(a)} 如果xi(d) ≠xj(d); 否则cij=Φ。区分函数是从区分矩阵中构造的。方法是把cij 的每个属性”或”起来,然后再”与”起所有的cij ,其中i,j=1,..,|U|。在使用吸收律化简区分函数成标准式后,所有的质蕴含式包含的属性就确定了信息系统的所有约简集合。   2.决策表的推导   决策表是一类特殊而重要的知识表达系统,它指当满足某些条件时,决策(行为)应当怎样进行。多数决策问题都可以用决策表形式来表示,这一工具在决策应用中起着重要的作用。   决策表可以定义如下:   S=(U, A)为一信息系统,且C,DA是两个属性子集,分别称为条件属性和决策属性,且C∪D=A,C∩D=,则该信息系统称为决策表,记作T=(U, A, C, D)或简称CD决策表。关系IND(C)和关系IND(D)的等价类分别称为条件类和决策类。      决策表中的每一行对应诸如Ψ→θ形式的决策规则,Ψ和θ分别称为决策规则的前驱和后继 。   当决策表S中决策规则Ψ→θ为真时,我们说该决策规则是S中一致的,否则说该决策规则是S中不一致的。若决策规则是S中一致的,相同的前驱必导致相同的后继;但同一种后继不一定必需是同一前驱产生的。   一致决策表的约简在我们制定决策时是否需要全部的条件属性,能否进行决策表的约简。约简后的决策表具有与约简前的决策表相同的功能,但是约简后的决策表具有更少的条件属性。   一致决策表的约简步骤如下:(1)对决策表进行条件属性的约简,即从决策表中消去某一列(主要研究点);(2)消

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档