基于大数据四大数据中心共享融合方法研究.docVIP

基于大数据四大数据中心共享融合方法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据四大数据中心共享融合方法研究

基于大数据四大数据中心共享融合方法研究   在建设坚强智能电网的新形势下,智能电网对信息化的支撑能力提出了更高的要求,自2009年国家电网公司信息化建设提出了“信息化建设和智能电网的发展还存在一定差距”的问题以来,建立的SG186工程在近几年的信息化建设中有效地提升与改善了信息资源的集成、信息系统的应用深度和实用化、生产控制与管理业务的联动效果。建设完成后,信息化系统从上万套精简至2300余套、所有各项业务处理周期缩短了30%、财务月结速度平均缩短50%、电费资金到帐时间缩短70%等,产生了极大的社会与经济效益。但在后续发展中仍然面临以下问题:   四大数据中心间数据仍然存在信息壁垒。四大数据中心的建设初衷,即实现国家电网数据资产的统一管理、集中利用,但四大数据中心间的数据互通、数据共享仍不能完全满足,进而间接的形成了新的信息壁垒。   各数据中心间交集过少,业务需求分散。四大?稻葜行牡幕?础数据均来源于业务部门,但各数据中心之间的数据并未产生过多的交集,导致业务部门数据分离存放,不同业务部门之间的不同类型的数据无法更深层次的利用。   数据价值挖掘的基础数据不足。现有四大中心共存的情况下,各中心数据之间依然存在壁垒。形成四大数据中心的共享融合体系后,将各中心的数据统一进行管理、分析,使四大数据中心的基础资源融为一体,扩大了数据覆盖面,此时将会得到更好的收益。   一、四大数据中心概述   依据“统一领导、统一规划、统一标准、统一建设”的建设原则所建立的四大数据中心,作为SG-ERP的基础支撑平台,对外提供公共服务及工具,满足公司各项业务对数据全生命周期的管理及利用需求,均承担着重要的使命:   (一)结构化数据中心   结构化数据中心建立了一个标准的、开放的模型,提供通用的数据接口,以满足发电、输电、变电、配电、用电和调度环节的数据需求。结构化数据中心建设以来,形成了全网统一的管理标准、编码、模型和数据的工具.   (二)非结构化数据管理平台   开展非结构化数据管理平台的技术研究与建设,有利于在公司范围内建立统一的非结构化数据管理标准,逐步消除数据孤岛,促进业务流程规范融合、运营管理高效协同,将非结构化数据贯穿企业日常生产、经营、管理和决策全过程,集中体现了公司信息化建设的整体工作思路   (三)海量历史准实时数据管理平台   各单位智能电网调度技术支持系统(SG-OSS)、输变电状态在线监测系统、用电信息采集系统、能效管理数据平台、配电自动化系统等的试点建设和推广,不断产生大量实时数据,继而沉淀形成了海量的历史数据,这些数据是公司的重要资产,是实现精益化管理的重要基础,需要通过海量历史/准实时数据管理平台实现这些数据的集成与共享。   (四)电网GIS空间信息服务平台   电网地理信息系统(GIS)作为一种电网资源综合集成管理与可视化分析的有效手段,可广泛地应用于电网企业的发电、输电、变电、配电、调度、营销、通信等各个专业,对有效提高数据采集、分析、处理能力,提供电网分析辅助决策支持,降低企业生产运营风险。平台通过与各业务系统的集成,构建统一数字化电网,提升电网的精益化管理水平,建设了开放式的、面向企业级应用的电网空间信息服务平台。   二、国内外大数据共享融合   (一)某大型企业大数据融合整体规划   该企业大数据包含着大量的信息,需要通过大数据技术支撑数据价值的深度挖掘,为社会提供更多的信息便利。电信行业大数据主要面临数据规模大、关联查询复杂、即席查询多三方面的问题,在国内,解决上述问题的主流思路是:以基于MPP架构的新型数据库集群作为大数据处理平台的核心,管理结构化大数据。使用基于Hadoop的数据处理技术管理非/半结构化大数据,并用事务型数据库(如南大通用BC-RDB系统)支撑在线业务系统,这两者同时为MPP架构的新型数据库集群提供数据支撑。   (二)某大型企业的大数据分析处理架构   数据源:除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。数据存储的结构,其中重点是流数据,它的核心就是数据的连续性和快速分析性;   计算层:内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源 于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,近似实时查询;底层的文件系统HDFS, 也就是Hadoop的底层存储。上层的YARN就是MapReduce的第二版,综合起来,就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。   三、四大数据

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档