- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
油田企业数据湖框架下数据治理研究
[摘 要]?随着大数据时代的到来,油田企业的信息化建设从数字油田迈向智能油田,利用信息技术提升经营决策水平是企业发展的必然要求。在数据湖框架下,油田企业入湖数据的范围急剧扩大,各业务系统既是数据采集源头又是数据应用终端。本文围绕石油企业数据湖建设工作,通过在数据湖技术框架下开展数据治理研究工作,寻找确保数据量与数据质量的有效措施,提高数据采集量、数据质量、数据获取与应用效率。
[关键词]数据湖? 数据治理? 数据标准化? 数据抽取
1 前言
开展数据湖框架下的数据治理工作,就是基于统一数据标准及数据模型,应用数据湖架构建立油田企业数据湖,实现勘探开发全业务链数据的统一管理、治理与完善。通过分析勘探开发全业务链数据采集管理现状,明确各业务环节数据采集、数据管理现状,各业务系统间数据约束关系,提出已建成数据库数据管理、数据质量分析与改进方案,以及采集平台采集数据与数据湖业务数据范围、质量要求,存在的差异与改进措施等。
通过开展数据湖框架下的数据治理,真正的让数据资源支撑起油田企业生产与管理业务的需要,在数字化方面提高企业运行效率,提高劳动生产率。
2 现状及发展趋势
2015年,长安大学提出油田数据治理的理念,这种治理不同于以往的数据整理和数据仓库建设,他们主张从源头上做到数据质量保证,主要有三种思想:一是从源头上按照数据标准直接入库,中间不再有环节,这样数据质量就会得到有效保证,也避免了数据孤岛的再次出现。二是对已有历史数据进行全面治理,治理其实就是去伪存真,消除数据鸿沟和数据孤岛。三是具体实践,即在理论研究和理念建设的同时在油田公司进行具体实践,利用数据治理技术大规模地从内部对数据进行梳理。
从国内油田企业数据建设来看,数据治理还是取得了很大的成就。但是,如何能提高或提升数据主动服务油田勘探开发的能力,还有很长的路要走。油田企业数据治理,尤其是在数据湖建设如火如荼开展的当下,数据治理工作更需要加强,才能让数据价值得以更好的体现。
3 数据湖及数据治理的特点
数据湖与大数据在概念的内涵和外延上有许多相似之处。大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。根据大数据的特征,数据湖具有以下特点。
(1)存储空间海量化
在大数据时代,数据量呈指数级增长,传统数据库的架构难以适应数据量疯长的情况,存储空间有限。数据湖作为大数据的支撑,可以满足海量存储需求,它汇聚吸收各个数据源流,容纳散落在各处的数据,存储空间巨大。
(2)存储格式兼容化
数据湖面向多数据源和数据类型,可以快速地存储、录入和计算大量来源不同、格式迥异的原始数据,把不同种类的数据汇集到一起,对数据进行管理并在数据之间建立链接,具有很强的兼容性。
(3)数据类型多样化
数据湖中存储的数据凌乱纷繁,包含多种类型,具有多样化的特点。数据湖将不同种类的数据通过智能化集成等方式结合在一起,可能会产生新的甚至高于原始数据的价值。
(4)数据处理高速化
数据湖能将各数据池中的原始数据快速转化为可以直接提取、分析、使用的标准格式,统一、优化数据结构并对数据进行分类存储,根据用户需要从数据池中对数据进行快速的挖掘、查询、选择和处理,并实时传递给用户。
(5)数据价值增值化
数据湖中的原始数据在数据池中被标准化后,再根据其在未来被提取利用可能性的大小,决定该数据存储的最终位置,并在它们之间建立起相应的联系。用户可以从数据池中大量挖掘、提纯数据,分析数据间的关联并用于特定需求,实现数据增值。
数据治理是涉及数据使用的一整套管理行为,其核心是让数据快速增值,就是数据资产创造价值。数据治理的难度在于数据格式太多,以我们现在的技术和条件难以“统一化”,而且需要确保数据的准确性、高质量和数据安全,以及能够实时分享。因此,目前不仅要在管理层面上强调数据标准化与标准化建设,如对元数据、数据元等的统一管理,以便有效的实现数据共享。而且在技术层面上,需要良好的数据治理构架,包括数据治理的理念、方法和技术手段,形成一种标准的数据治理体系。
需要强调的是,数据治理与数据管理是两回事,数据管理包含组织、人员、制度和条例等,以及对数据的增、删、改查等服务过程。而数据治理是针对数据的进一步合理化、优化所采取的一系列活动,这些活动可能包括管理,也可能包括存储,是提高数据质量水平的具体工作。
4、数据治理框架下的统一采集平台设计
经过多年来在数据治理方面积累的经验及教训,以数据湖建设为契机,提出适用于本油田企业的数据治理框架,通过规范采集标准、升级采集软件、建立主数据库、区域数据湖、数据服务门户等一系列数据资源管理系统,全面提升勘探开发全业务链的数据质量,为各项业务开展夯实数据基础,最终实现专业数据的资产化管理。
以数据采集为例:油田企业及各油气生产单位,为了
文档评论(0)