- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅论数据挖掘与水文现代化.doc
浅论数据挖掘与水文现代化
1数据挖掘
1.1 数据挖掘技术的产生
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
用数据库来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据挖掘的产生[1]。数据挖掘是一门交叉性学科,涉及到人工智能、机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等等多个领域。数据挖掘技术包括算法和技术,数据、建模能力3个主要部分[2]。
1.2 数据挖掘的演进过程
数据挖掘其实是一个逐渐演变的过程。电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。尔后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,专家系统就是这种方法所得到的成果。
20世纪80年代,人们在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库,而且出现了一个新的术语——KDD(Knowledge discovery in database,泛指从源数据中发掘模式或联系的方法)。人们用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(Data mining,简称DM)来描述使用挖掘算法进行数据挖掘的子过程。DM侧重数据库角度,KDD侧重人工智能角度[1]。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。数据挖掘技术在当前的数据仓库环境中进入了实用阶段。
1.3数据挖掘的定义
数据挖掘的定义为“从数据库中发现隐含的、先前不知道的、潜在有用的信息”,是在数据库技术、机器学习、人工智能、统计分析、模糊逻辑、人工神经网络和专家系统的基础上发展起来的新概念和新技术,是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的信息和知识的过程。更广义的说法是[2]:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。
数据挖掘与传统分析(如查询、报表、联机应用分析)的本质区别是,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用3个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值[1]。
2 马克威分析系统简介
马克威分析系统是中国第一套完全自主知识产权,集统计分析、数据挖掘和网络挖掘于一体的数据分析系统。它可以与现有的信息管理系统(MIS)进行集成,在保护现有设备的情况下,节约数据挖掘项目的开支。该系统由数据输入、数据处理、统计分析、数据挖掘、统计制图和电子报表等六大功能模块组成,各模块特点为:
(1)灵活多变的数据输入方式。输入方式包括从界面直接输入、直接打开数据文件、使用数据向导将数据库中的数据导入到分析平台上等,并且与所有主流数据库实现了无缝连接,例如Oracle、DB2、Sybase、SQLServer、Mysql、Informix、Access等。
(2)丰富的数据处理功能。包括数据合并、数据拆分、插入或删除记录、记录处理、权重设置、多维查询、分类汇总、数据抽样、变量计算、缺失值填充、异常值删除、记录排序、变量类型转换、行列转换、随机数生成等。
(3)统计分析是该系统的核心模块之一,有基础统计和高级统计可选。基础统计包括均值分析、交叉表、频率分析、描述分析、一元方差分析、参数T检验、单样本T检验、独立样本T检验、配对样本T检验、相关分析、非参数检验等;高级统计包括回归分析、聚类分析、判别分析、因子分析、时间序列分析、多因素方差分析等。
(4)数据挖掘模块提供了目前市场上较为完备的挖掘方法。包括神经网络、决策树、关联规则、模糊聚类、粗糙集、支持向量机、孤立点分析等。
(5)数据信息的可视化是信息应用的发展趋势。统计制图模块包括直线图、条状图、柱状图、圆饼图、面积图、排列图、误差图、序列图、散点图、自相关图、互相关图、控制图等。
(6)统计报表模块主要针对中国用户。它将主要和常用的报表按照国家统计局的常规模式设定成格式,为用户自动生成表格,包含内设的系统模板以及用户自设的用户模块两类。
3 水文现代化与数据挖掘
针对我国存在的洪涝灾害、水资源短缺、水环境恶化、水土流失等有关水的问题,水利部提出了从传统水利向现代水利、可持续发展水利转变,以水资源的可持续利用支撑经济社会可
您可能关注的文档
最近下载
- 2025-2026学年粤教粤科版(2024)小学科学三年级上册(全册)教学设计(附目录 P182) .docx
- 电机拖动应用技术第2章知识点回顾总结.docx VIP
- 蓝光BL及BL培训总汇讲解.ppt VIP
- Q SY 17816-2021 泡沫驱用起泡剂技术规范.pdf VIP
- SL∕T 619-2021 水利水电工程初步设计报告编制规程.pdf
- 蓝光BL及BL培训总汇演示文稿.ppt VIP
- 第三单元:测量(单元复习课件-)人教版三年级数学上册.pptx VIP
- 巨人通力GPS53K(SIEI)-YH_电气原理图纸G3001007(B)N-2020-12.pdf
- 第1单元第5课《图片的局部处理》课件【滇人版】《信息科技》五年级上册.pptx VIP
- 《物业服务模式》课件.ppt VIP
原创力文档


文档评论(0)