- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进决策树算法在水环境质量评价中的应用思考.doc
改进决策树算法在水环境质量评价中的应用思考
【摘 要】社会经济发展推动着城镇化进程加快,城市化进程与工业生产规模的扩大现实,对生活与工业生产用水量提出了更高要求。因缺乏有效治理,大量污废水直接排放,导致江河水体受到污染。为研究水环境质量变化与发展规律,提出改进决策树算法并将其应用于水环境评价之中。实践证明,基于改进决策树算法的水环境评价模型,其精度较高,生成规则准确,能够实现对水环境质量的客观评价,具备较好的现实价值。
【关键词】改进决策树算法;水环境质量;评价;应用
1 引言
城市化与工业生产的发展,产生了大量的污水与废水,在没有经过任何处理的条件下进入到江河之中,对大量水体构成严重影响。为加强水体保护,研究区域内水环境质量的变化过程与发展所具备的规律,应用现代信息技术促使,对水体要素进行定量评价,为开展环境污染控制规划提供现实指导意义。然而水环境中其评价因子量较多,且其因子与水质等级之间并非均存在着线性关系,从而为水环境质量评价带来困难。提出改进决策树算法构建分类模型,将采集样本数据输入并寻找出分类规则,发现水环境质量变化过程及影响水质的最大因素,对水体质量发展趋势进行预测,为水环境保护与治理提供现实依据。
2 决策树及其工作原理
决策树算法属于数据挖掘的重要分类技术,其操作简单,使用范围较广。应用决策树,可以快速发展数据之中隐含的分类规则。具体而言,则是在相关训练数据的基础上,构建分类模型,于未知测试样本数据中,依据根节点经过某路径达到叶子节点,从而对叶子节点作出客观预测。应用决策树算法,能够对水环境污染源、污染发生的过程、污染物分布状况,对水环境质量变化规律进行分析,预测水体质量发展的未来趋势,其在开展水资源保护开发与治理等方面发挥着一定现实价值。
决策树简称为DT,属于一种存在反向的无环图,决策树内部其每个树的节点均代表着一个测试属性,树的分支反映着测试结果,树叶子节点表示类别。在决策树算法中,最为根本的算法为贪心算法。一般而言,决策树算法在进行数据分类与预测时,其主要步骤为:学习训练数据,构建决策树,分析已生成决策树,提取分类规则,对具体测试样本测试,明确样本所属类别。
3 决策树算法及其改进
在学习决策树算法时,最具影响力的算法为ID3算法,该算法由J.R.Quinlan提出,其主张在属性选择时,将信息增益作为标准,让每个非叶节点进行测试时,均可以获知被测试记录的最大类别信息,且ID3算法其方法计算,计算效率高,理论基础清晰,然而在实践应用中发现,ID3算法仍存在着一定不足,主要表现为:其算法在噪声数据处理时较为敏感,在连续型属性处理时,需要先对其进行离散化方可采取ID3算法进行分类;ID3算法在选择新的属性过程中仅仅考虑该属性信息增益问题,缺乏对后续属性信息增益问题的综合考虑;ID3算法偏重于选择取值较大属性。基于ID3算法中存在的问题,决定对该算法进行改进,提出在MID3算法之中引入用户兴趣度α,从而在一定程度上解决决策树算法倾向于多值问题。
MID3算法是以ID3算法为依托,实质上属于ID3算法的优化,在面对新属性选择时,MID3算法可以综合考虑属性信息增益与后续属性信息增益问题。且在MID3算法中引入用户兴趣度α因子,α指的是对某一事物所具备的相关知识与经验,如专家评价、相关领域知识等,α值需要在决策树学习训练集时反复测试获得,α取值范围应控制在0-1范围内,决策层需要综合考虑先验知识与相关领域知识,合理判断α取值,基于用户兴趣度α的MID3算法,其计算公式为:
其中A代表选择属性,A存在着v个属性装,其相对应概况通过p1、p2…pv,依据最小信息熵原理进行A属性扩展,用B来对其子节点属性表示。
4 改进决策树算法在水环境质量评价中的应用
在水环境检测系统数据库中存在着大量数据信息,在进行数据挖掘时面对大量数据信息难以发现其隐藏规律,为此在应用中采取随机序列发生器,随机抽取一定数据作为决策树算法研究样本数据。
4.1 数据挖掘前的数据预处理
在进行数据挖掘操作之前,需要将面对的数据信息进行数据集成、数据交换与数据规约等预处理。数据预处理模块属于数据挖掘系统所必备的模块,数据预处理技术以专业知识为导向,将发现存在价值信息为目标,通过对数据信息的组织处理,将与数据挖掘不存在任何关系的属性删除,从而为数据挖掘算法提供更为精准的数据,提高数据挖掘效率。在水环境评价时,选择《地表水环境质量标准》作为评价标准,按照相关水质评价要求,选择汞、铅、PH、DO、COD、NH3-N、石油类、挥发酚等属性作为水质评价参数,下表为某流域水质状况数据参数:
通过上表可以看出,其数据划分精细,难以直接分类处理,为此,采取数据预处理
您可能关注的文档
最近下载
- 海南省海口市(新版)2024小学语文人教版小升初真题(巩固卷)完整试卷(含答案).docx VIP
- 2025-2030中国医学影像设备行业深度调研及投资前景预测研究报告.docx
- 公安院校公安专业本专科招生政治考察表(2022年西藏报考公安院校公安专业招生).doc VIP
- 劳动争议管理制度.docx VIP
- 2024年秋季新北师大版七年级上册数学全册导学案.docx
- 2020-2021学年北京市朝阳区北京版四年级下册期末测试英语试卷.docx VIP
- 骨关节感染患者的护理(外科护理).pptx
- 波形护栏质量检验评定表、报告单.pdf VIP
- 大学《传感器原理及应用》习题解析及期末考试真题.docx VIP
- 基于PLC控制的泡沫切割机-毕业论文.doc VIP
文档评论(0)