基于决策树技术的新农村建设类型划分.pdfVIP

基于决策树技术的新农村建设类型划分.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树技术的新农村建设类型划分.pdf

基于决策树技术的新农村建设类型划分 王朝勇1,2 1合肥工业大学计算机与信息学院,安徽合肥230009 2合肥市统计局信息管理处 摘要:本文依据新农村建设综合评价指标体系及其数据,运用数据挖掘技术,提出一种基于决策 树的新农村建设类型划分方法,对新农村建设情况进行分类处理,以解决综合评价法只能得到综合得 分及排名,没有类型划分的问题。同时利用数据挖掘中得到的规则,为修正综合评价指标体系提供参 考,仿真实验表明了算法的有效性。 关键词:新农村建设评价指标体系决策树 l引 言 党的十六届五中全会提出了建设社会主义新农村…的重大历史任务,为做好当前和今后一个时期的“三 农”工作指明了方向。全国各地广泛的开展了建设社会丰义新农村的实践活动。在新农村建设过程中,为 反映新农村建设的现状,各地多是依据社会主义新农村建设综合评价指标体系【2l运用加权求和法13J,得出 所分析地区新农村建设的综合得分及排名。 加权求和法中对评价指标权重的划分多依据专家的意见和实践经验而定。如果全国统一使用一套评价 指标和权重,则很难反映各地的实际建设情况。若各地根据实际建立适合本地的评价标准,指标设立和权 重划分的科学性很难保证。同时,加权求和法不能得到建设过程中具有典型代表性的类型划分,不利于各 地政府因地制宜的开展新农村建设活动。 数据挖掘【4。6J中的决策树17J方法是以实例为基础的归纳学习算法,在确定数据集之后,完仝依赖数据本 身来学习模型,其优点在于不依赖领域知识,表达出的规则易于理解。本文采用决策树方法,依据新农村 建设综合评价指标体系及其数据,选取了牛产发展,生活富裕,村容整洁,管理民主五个一级指标,若于 二级指标建立新农村建设类型评价模型,并对新农村建设等级评价,取得了较好的效果。 2决策树的理论基础 决策树概念最早出现在Hunt提出的CLS(ConceptLeaming 类问题研究与分析的参考基准【8’91。决策树方法ID3、C4.5是建立在信息熵基础上的一种分析模型。通常, 小概率事件比大概率事件信息量大,比如“9.1l”事件肯定比某一普通的坠机事件更具有信息量。shannon 于1948年提出了信息论,解决度量信息大小的问题。 事件G,信息量Info(G)定义如下:Info(G,)=一1切(G,) (1) G一的变量,其信息量可通过其信息熵E(G)来度量。 S 式(2)中规定当p(G)=O时,一p(G,)l印(G,)=0。在决策树分类中,假设S是训练样本集,IJ是训练样 G2 本数,样本划分为以个不同的类G一,G2,…,G”,这些类的大小分别记为IGlI,l I,…,IG—I,则 任意样本S属于类G的概率为: 郎,=料 根据式(3),可以定义一个给定样本分类的平均信息熵为: 即卜喜c斜-b静 ㈣ 在决策树分类中,假设彳是取有限个不同值口·,订z,…,‰的属性,这些值可以将训练样本集S划 分为m个子集{S一,S2,…,岛,则属性彳的信息熵为: E(彳)=一∑p(s)lbp(昂) /=l 由属性彳划分的决策树分类的平均条件熵为: E(s I岛) I么)=一∑p(西)∑p(G;l昌)lbp(Gt J=l ,=l 式中:p(西)=I61,I/|sl;p(Gtl西)为子集S属于类Gi的概率;假设I岛I表示子集S中类Gj的样本 s 数,则p(G.f母)=I岛I/fI;样本分类的熵值发生了变化,即属性彳对分类提供了信息,熵的变化量称为 属性彳对于分类的信息增益。 △E(S,么)2E(S)一E(Sl彳)≥0

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档