数据助动 电力先行.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据助动 电力先行.doc

数据助动 电力先行   电力行业信息化和工业化融合发展促使电力数据迅速增长和不断融合,电力大数据时代已经到来。电力大数据源自电力行业,与智能电网、智慧城市紧密相连,是未来电力发展的重要资源。   电力大数据关键技术   多数据融合。数据融合是一个多级、多层面的数据处理过程,主要完成对来自多个信息源的数据进行自动检测、关联、相关、估计及组合等处理。电力大数据在行业内部主要涉及电力生产和电力服务各环节数据的融合,实现跨单位、跨部门、跨业务数据分析与共享。   数据融合要处理各类数据源数据的抽取、关联,如涉及多个专业的电力资产全寿命周期管理、营销和配电协调管理等都需要不同来源数据的融合,从而逐渐形成以数据为中心的企业信息化管理系统,转变传统的以业务系统为中心的信息化建设思路,促进数据资源共享,发挥数据大的价值。   数据分析挖掘。电力大数据分析挖掘主要面向结构化数据和非结构化数据,解决复杂数据结构、多种类型、海量数据的有效处理问题。结构化数据的统计分析、特征提取和挖掘比较成熟,视频、音频和文本等非结构化数据是研究的热点。视频和图像方面主要开展人脸识别、人体识别、物体识别、指纹识别、虹膜识别,以及基于内容的多媒体检索等研究;音频方面主要开展自然语言处理、声音识别、感情计算等;文本方面主要开展自然语言理解、主题思想提取、自动摘要等。   非结构化数据的处理方法主要以模式识别、机器学习、统计分析等为主。在结构化和非结构化数据处理过程中都会用到统计分析、数据挖掘、关联分析、机器学习、建模仿真等算法。大数据时代使得训练和统计样本数量迅速增加,为算法模型改进提供了很大空间,甚至引起新算法的产生。   数据可视化。数据可视化借助图形描述数据中的复杂信息。良好的数据可视化设计既要有艺术设计,也要能优雅地展示数据的细节,并能够展现对数据的洞察和新的理解。电力大数据可视化满足电力生产与企业经营、对外交流合作两个方面的需要。   电力生产与企业经营方面,数据可视化能够全面、及时地反映电力生产、企业经营的各类数据的状态,满足运行管理工作需要,当特殊状态或设备报警等情况发生时,能够及时、醒目地通知运行和管理人员。对外交流合作方面,电力数据的可视化主要反映电力发展的全局情况,反映社会用电情况和经济活动规律,体现电力发展支撑经济社会的作用和价值。   电力大数据存储与处理技术   大数据存储与处理技术主要解决电力大数据实时处理和批量处理。内存计算技术和Hadoop技术的融合是解决电力大数据存储和处理的一个有效办法。   内存计算技术将全部数据放入内存进行计算,是提高单机计算速度的有效办法,是对传统数据处理方式的一种加速。随着内存价格的不断下降,内存计算已经具备物质基础,在一定程度上解决了海量数据的实时处理问题。如将电力企业近10 年所有的财务、营销、市场等各方面的数据一次性地保存在内存里,并在此基础上进行数据分析。   从应用的角度看,内存计算技术是把现在交易型的数据库和分析型的数据库合并为一个内存数据库,同时应对这两种应用。   内存计算可以提高传统信息系统的处理速度,对SAPH HANA 内存计算进行了测试,可以提高计算速度几十到上百倍。内存计算主要解决大数据的实时处理问题,而分布式计算则主要解决更大规模数据的分布式存储与处理问题。   分布式计算典型的例子是Google 文件系统(Google File System,GFS),该系统基于大量Linux 操作系统的PC 服务器构成的集群系统。介绍了Google 的GFS 系统,随后Yahoo 开发了该系统的开源版本Hadoop,Hadoop集群系统具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户修改代码等特点,同时能支持海量数据存储和计算任务。Hive 是一个基于Hadoop的数据仓库平台,转化为相应的MapReduce 程序在Hadoop 上执行。通过Hive,开发人员可以方便地进行数据抽象、转换、加载(Extract-Transform-Load,ETL)开发。   目前,Facebook、eBay、Last.fm、百度、腾讯、淘宝、阿里巴巴等公司都采用Hadoop 作为大数据处理技术平台,其中Facebook 有2 个主要集群存储日志、源数据,并用于机器学习和分析,其规模达到了1100 台和300台机器, 存储空间达到12PB 和3 PB。内存计算和分布式计算的有机结合是兼顾电力大数据海量处理和实时处理的理想选择。   电力大数据的应用   电力大数据的价值在于挖掘数据之间的关系和规律,满足企业电力生产、经营管理和电力服务在提高质量、效益、效率方面的需要,促进电力资源的优化配置和高效服务。   在企业内部,电力生产的各环节数据融合、发掘,有利于发现

您可能关注的文档

文档评论(0)

sis_lxf + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档