改进决策树算法在水环境质量评价中的应用思考.docVIP

改进决策树算法在水环境质量评价中的应用思考.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进决策树算法在水环境质量评价中的应用思考.doc

改进决策树算法在水环境质量评价中的应用思考   【摘 要】社会经济发展推动着城镇化进程加快,城市化进程与工业生产规模的扩大现实,对生活与工业生产用水量提出了更高要求。因缺乏有效治理,大量污废水直接排放,导致江河水体受到污染。为研究水环境质量变化与发展规律,提出改进决策树算法并将其应用于水环境评价之中。实践证明,基于改进决策树算法的水环境评价模型,其精度较高,生成规则准确,能够实现对水环境质量的客观评价,具备较好的现实价值。   【关键词】改进决策树算法;水环境质量;评价;应用   1 引言   城市化与工业生产的发展,产生了大量的污水与废水,在没有经过任何处理的条件下进入到江河之中,对大量水体构成严重影响。为加强水体保护,研究区域内水环境质量的变化过程与发展所具备的规律,应用现代信息技术促使,对水体要素进行定量评价,为开展环境污染控制规划提供现实指导意义。然而水环境中其评价因子量较多,且其因子与水质等级之间并非均存在着线性关系,从而为水环境质量评价带来困难。提出改进决策树算法构建分类模型,将采集样本数据输入并寻找出分类规则,发现水环境质量变化过程及影响水质的最大因素,对水体质量发展趋势进行预测,为水环境保护与治理提供现实依据。   2 决策树及其工作原理   决策树算法属于数据挖掘的重要分类技术,其操作简单,使用范围较广。应用决策树,可以快速发展数据之中隐含的分类规则。具体而言,则是在相关训练数据的基础上,构建分类模型,于未知测试样本数据中,依据根节点经过某路径达到叶子节点,从而对叶子节点作出客观预测。应用决策树算法,能够对水环境污染源、污染发生的过程、污染物分布状况,对水环境质量变化规律进行分析,预测水体质量发展的未来趋势,其在开展水资源保护开发与治理等方面发挥着一定现实价值。   决策树简称为DT,属于一种存在反向的无环图,决策树内部其每个树的节点均代表着一个测试属性,树的分支反映着测试结果,树叶子节点表示类别。在决策树算法中,最为根本的算法为贪心算法。一般而言,决策树算法在进行数据分类与预测时,其主要步骤为:学习训练数据,构建决策树,分析已生成决策树,提取分类规则,对具体测试样本测试,明确样本所属类别。   3 决策树算法及其改进   在学习决策树算法时,最具影响力的算法为ID3算法,该算法由J.R.Quinlan提出,其主张在属性选择时,将信息增益作为标准,让每个非叶节点进行测试时,均可以获知被测试记录的最大类别信息,且ID3算法其方法计算,计算效率高,理论基础清晰,然而在实践应用中发现,ID3算法仍存在着一定不足,主要表现为:其算法在噪声数据处理时较为敏感,在连续型属性处理时,需要先对其进行离散化方可采取ID3算法进行分类;ID3算法在选择新的属性过程中仅仅考虑该属性信息增益问题,缺乏对后续属性信息增益问题的综合考虑;ID3算法偏重于选择取值较大属性。基于ID3算法中存在的问题,决定对该算法进行改进,提出在MID3算法之中引入用户兴趣度α,从而在一定程度上解决决策树算法倾向于多值问题。   MID3算法是以ID3算法为依托,实质上属于ID3算法的优化,在面对新属性选择时,MID3算法可以综合考虑属性信息增益与后续属性信息增益问题。且在MID3算法中引入用户兴趣度α因子,α指的是对某一事物所具备的相关知识与经验,如专家评价、相关领域知识等,α值需要在决策树学习训练集时反复测试获得,α取值范围应控制在0-1范围内,决策层需要综合考虑先验知识与相关领域知识,合理判断α取值,基于用户兴趣度α的MID3算法,其计算公式为:   其中A代表选择属性,A存在着v个属性装,其相对应概况通过p1、p2…pv,依据最小信息熵原理进行A属性扩展,用B来对其子节点属性表示。   4 改进决策树算法在水环境质量评价中的应用   在水环境检测系统数据库中存在着大量数据信息,在进行数据挖掘时面对大量数据信息难以发现其隐藏规律,为此在应用中采取随机序列发生器,随机抽取一定数据作为决策树算法研究样本数据。   4.1 数据挖掘前的数据预处理   在进行数据挖掘操作之前,需要将面对的数据信息进行数据集成、数据交换与数据规约等预处理。数据预处理模块属于数据挖掘系统所必备的模块,数据预处理技术以专业知识为导向,将发现存在价值信息为目标,通过对数据信息的组织处理,将与数据挖掘不存在任何关系的属性删除,从而为数据挖掘算法提供更为精准的数据,提高数据挖掘效率。在水环境评价时,选择《地表水环境质量标准》作为评价标准,按照相关水质评价要求,选择汞、铅、PH、DO、COD、NH3-N、石油类、挥发酚等属性作为水质评价参数,下表为某流域水质状况数据参数:   通过上表可以看出,其数据划分精细,难以直接分类处理,为此,采取数据预处理

文档评论(0)

ganpeid + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档