浅谈数据挖掘技术在燃气行业应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈数据挖掘技术在燃气行业应用

浅谈数据挖掘技术在燃气行业应用    摘要: 本文从数据挖掘技术入手,结合目前燃气集团的业务现状,提出分析和数据挖掘在燃气集团业务中应用的设想和建议。   关键词:数据挖掘,燃气行业,应用   中图分类号:TH138.23文献标识码:A 文章编号:   1. 引言   城市燃气是城市的重要基础设施,直接关系到城市居民的生活和安全,关系到城市经济的可持续发展和社会的稳定。以优质的服务赢得用户,以一丝不苟的态度回报社会一直是我们燃气人孜孜以求的目标。如何在达到较高社会效益的同时提高企业自身的经济效益呢?我认为在通过进一步优化企业管理模式,树立新思想,建立新突破的同时,必须要有全新的企业信息化管理作为保证,要有强大的数据分析能力左右坚实的后盾。   数据挖掘技术是一项日趋成熟的数据统计和整理的方法论,应用多种软件和方法可以对现有纷繁复杂的数据进行归纳,梳理,从中挖掘出可供决策依据的有效数据。   本文从数据挖掘技术入手,针对燃气集团目前的系统现状和数据现状,提出数据整理和挖掘的必要性,并就数据挖掘技术在燃气集团中的应用的设想做下简单的阐述。   2. 数据挖掘技术简介:   数据挖掘(data mining) 是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。   数据挖掘是一个以数据库、人工智能、数理统计、可视化四大支柱技术为基础,我们知道,描述或说明一个算法设计分为三个部分:输入、输出和处理过程。数据挖掘算法的输入是数据库,算法的输出是要发现的知识或模式,算法的处理过程则设计具体的搜索方法。从算法的输入、输出和处理过程三个角度分,可以确定数据挖掘主要涉及三个方面:挖掘对象、挖掘任务、挖掘方法。挖掘对象包括若干种数据库或数据源,例如关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据???、历史数据库,以及万维网(WEB)等。挖掘方法可以粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法可细分为:回归分析、判别分析等。机器学习可细分为:遗传算法等。神经网络方法可细分为:前向神经网络、自组织神经网络等。数据库方法主要是多维数据分析方法等。   数据挖掘常用技术有以下几种:   (1)关联分析法   从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。   (2)人工神经元网络(ANN)   人工神经元网络(ANN)是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明性,因为其无法解释结果是如何产生的,及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。   (3)决策树(DT)   决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适于对记录分类或结果的预测,尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CART(回归决策树)方法。   (4)遗传算法(GA)   遗传算法(GA)是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。   (5)聚集发现   聚集是把整个数据库分成不同的群组。它的目的是要群与群之

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档