- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据在电力行业的应用与挑战.doc
大数据在电力行业的应用与挑战
【摘要】大数据(big data),是指数据规模特别巨大,以至于无法通过传统的软件工具和处理方式有效地对数据进行采集、存储、分析、整合、控制,达到数据的深度价值挖掘和辅助决策的信息资料。大数据具有4V特点:Volume(数据量大)、Velocity(实时性强)、Variety(数据种类多样)、value(价值大)。
【关键词】大数据 电力大数据 Hadoop 数据挖掘 分布式机器学习
【Abstract】Big data, refers to a huge amount of data, that it is unable to be collected, stored, analyzed, integrated and controlled by the conventional software tools and effective processing ways, in order to achieve the deep value mining and scientific decision-making. Big data has 4V features: Volume(massive data), Velocity(high real-time), Variety( various data types), Value(high value).
【Keywords】big data, big data in electric power industry, Hadoop, data mining, distributed machine learning.
1 引言
2014年7月28日 国务院印发《关于加快发展生产性服务业促进产业结构调整升级的指导意见》,更加明确了大数据技术在产业结构升级中的核心基础性地位。
能源产业的全面、协调和可持续发展,是我国经济实现平稳快速增长和转型升级的重要基础性保证。电力作为最主要的二次能源,其高效利用和优化配置,实现节能减排和服务转型升级,对于顺应低碳发展趋势、构筑绿色能源产业体系、减少资源浪费、促进产业结构升级、创建可持续性发展的节约型社会具有重大意义。
2 什么是电力大数据
近年来,随着全球能源问题日益严峻,世界各国都开展了智能电网的研究工作。智能电网的最终目标是建设成为覆盖电力系统整个生产过程,包括发电、输电、变电、配电、用电及调度等多个环节的全景实时系统。而支撑智能电网安全、自愈、绿色、坚强及可靠运行的基础是电网全景实时数据采集、传输和存储,以及累积的海量多源数据快速分析。因而随着智能电网建设的不断深入和推进,电网运行和设备检/监测产生的数据量呈指数级增长,逐渐构成了当今信息学界所关注的大数据,这需要相应的存储和快速处理技术作为支撑。
电力行业的大数据在电力的生产和使用过程中,伴随着发电、输电、变电、配电、用电以及调度等环节产生。
3 电力大数据的关键技术
3.1 数据挖掘
电力大数据的分析和挖掘主要面向结构化和非结构化数据,能够针对复杂数据结构、多类型的海量数据做有效的处理。
但目前电力行业的数据挖掘计算大多都是基于小数据集进行计算的,这是因为目前在大数据行业内主流的大数据计算框架还没有在电力大数据领域内得以普遍应用,使用传统方式做海量数据的挖掘计算往往需要数天甚至几个月的时间,这是人们在实际业务场景中无法接受的。而是用小数据集进行的数据挖掘操作,其真实性、可靠性都远不及基于海量数据的挖掘结果。这也是我们目前正在持续进行的研发重点。
基于Hadopp HDFS、HBASE的快速访问,基于Spark的分布式访问和分布式计算,基于R和Spark mllib的统计、计算、分析,基于Mahout的机器学习,共同构建了基于大数据的高性能流计算的数据挖掘、统计、分析技术框架。
3.2 实时计算
电力行业的实时计算在其大数据应用领域内具有不可忽视的地位。电力行业的实时数据往往代表着设备运行参数、生产环境的各项指标、客户的实时需求等等,这样的数据,其价值只有在其刚刚产生的时候,才是最大的。而且,在数据刚刚产生的时候,就对其进行移动、计算和使用才是最有意义的,这也符合数据应用的一般规律。因此,电力大数据一定要重视实时计算场景的应用。
现阶段,基于传统数据量实现的实时计算框架已经比较能够成熟的应用在电力行业。例如,在电厂中,以秒、分钟为单位采集电厂电力设备的各项运行指标、参数,数据采集完成之后,将被发送实时计算框架。在框架中,所采集到的参数指标将应用于数据挖掘建立的数据模型及电力专家长年积累的业务规则,实现设备故障检测、故障预警、设备状态评估等功
文档评论(0)