浅谈电力大数据平台关键技术研究与应用.docVIP

浅谈电力大数据平台关键技术研究与应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈电力大数据平台关键技术研究与应用.doc

浅谈电力大数据平台关键技术研究与应用   [摘 要]近年来,经过SG186工程、SG-ERP建设,国家电网公司积累了丰富的数据资源,但随着公司业务系统数据量的不断增大,数据价值挖掘需求的增长,电力大数据平台需要横向扩张,进一步整合优化数据资源。本文研究探讨了电力大数据平台关键技术研究与应用,充分分析现有数据中心平台组件待优化点基础上,开展公司大数据平台基础组件的研究,以实现统一为公司各类应用建设提供海量数据采集处理、存储处理、计算处理、分析挖掘等基础性支撑功能。   [关键词]大数据平台;关键技术;数据整合;数据存储   中图分类号:F426.61 文献标识码:A 文章编号:1009-914X(2016)24-0194-01   1 引言   随着国网公司“三集五大”管理体系和调控、运监、客服三中心的全面建设,信息系统已全面融入公司生产经营管理业务的各个方面,积累了大量的结构化数据、非结构化数据、海量历史准实时数据和地理信息数据。按照“统筹规划、协同推进、统一平台、规范建设”的总体策略,在充分继承现有信息化建设成果和一期大数据平台试点建设经验的基础上,2016年公司将全面推广大数据平台建设工作,以提升公司内外部数据资源整合处理和价值挖掘水平,促进管理提升和业务创新。   2 关键技术研究   1)关系数据与分布式存储同步技术   关系数据库与分布式存储同步技术是指可以将关系数据库的数据抽取到分布式存储中,又可以将分布式存储中的数据回写到关系数据库中。   大数据平台中的数据通常采取分布式存储技术进行海量数据存储,数据主要来源于公司现有的关系数据库、数据仓库。在数据进行传输的过程当中,既需要保障数据能在关系型数据库和分布式存储之间无缝传输,又需要保障大规模数据的传输与流转效率,不能影响业务系统正常运行。而传统的ETL抽取工具一般只具有关系数据库、文件、服务等数据源之间同步功能,缺少关系数据库与分布式存储之间数据同步能力。因此需要利用关系数据库与分布式存储同步技术实现不同存储机制下的数据双向同步。   2)文件采集与处理技术   数据平台的数据来源除了传统的数据中心、数据仓库之外,更多的数据是来自之前无法有效处理的各类文件,如系统日志、数据交换文件、现场检修照片、远程监视的视频等。这些文件数据结构不明确、清晰,变化频繁,数量巨大。通过大数据平台的分布式存储可以低成本存储文件,也可以将其中的数据解析成结构化或半结构化的数据存储在大数据平台中。   3)分布式文件系统   分布式文件系统是指基于客户机/服务器模式,文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统表现为文件数据存储在分散的低成本存储介质上,对外提供一致的文件访问接口,具有良好的容错性。分布式文件系统的引入,解决了海量数据存储的难题,其所具备的全分布式架构、数据块粒度切分、在线扩容减容、复制备份及普通PC硬件适用性等关键技术,支撑了安全的PB级以上规模数据在线存储,使安全、低成本、可任意扩容的大数据存储成为可能。   3 平台架构内容   大数据平台为业务系统大数据应用开发、运行提供统一的平台支撑。其架构内容主要包括数据整合、数据存储、数据计算、数据分析、平台服务、安全管理、配置管理等模块,并提供各种形式的服务对业务应用提供支撑。架构图如下图1所示。   数据整合:通过数据抽取、实时数据采集、文件数据采集、数据库实时复制等多种技术从外部数据源抽取和采集结构化数据(关系数据库记录)、半结构化数据(日志、邮件等)、非结构化数据(文件、视频、音频、网络数据流等),同时,实现数据的实时、非实时采集。   数据存储:负责进行大数据的存储,针对全数据类型和多样计算需求,以海量规模存储、快速查询读取为特征,存储来自外部数据源的各类数据,支撑数据处理层的高级应用。   数据计算:对多样化的大数据提供流计算、批量计算、内存计算、查询计算等计算功能,允许对分布式存储的数据文件或内存数据进行查询和计算。通过流计算技术提供实时分析处理的计算能力,实现实时决策、预警等。通过离线计算提供落地数据的计算能力,实现数据的批量处理。   数据分析:对多样化的大数据进行加工、处理、分析、挖掘,产生新的业务价值,发现业务发展方向,提供业务决策依据。   平台服务:将底层数据分析工具、组件等能力封装后为业务系统的大数据应用提供平台服务支撑,包含存储服务、计算服务、分析服务、展现服务等。   安全:解决从大数据环境下的数据采集、存储、分析、应用等过程中产生的诸如身份验证、授权过程和输入验证等大量安全问题。由于在数据分析、挖掘过程中涉及企业各业务的核心数据,防止数据泄露,控制访问权限等安全措施在大数据应用中尤为关键。

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档