自标准数据设想与QA-20131206-王权.docxVIP

下载本文档

0
0
约4.68千字
约 14页
2017-06-26 发布于重庆
举报
版权申诉

自标准数据设想与QA-20131206-王权.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自标准数据设想与QA-20131206-王权

概述自标准数据，Self-Standard Data，即自带标准或格式的数据体。数据提供者按照自己的标准或格式提供数据，并将该数据所使用的标准或格式与所提供的数据一起打包，数据使用者按照该标准或格式自行解读并使用数据。它是传统数据标准体系的重要补充和突破。这一设想的初步想法本人于2013年10月形成。目的是为了解决“数据标准过严不易推行，过松不易整合”的问题。顺应“数据使用者急，积极性高；而提供者不急，积极性不高”的实际情况，按照客观规律充分调动数据使用者的主动性，减轻数据提供者的负担。理念一经提出即受到多位专家、学者支持，在智能数字油田开放论坛热烈讨论，在大庆油田也引起一部分人的关注，并计划在即将实施的系统中进行试验。下图是本人设计的自标准数据的标识图。自标准数据 Self-Standard Data定义自标准数据，Self-Standard Data，即自带标准或格式的数据体。数据提供者按照自己的标准或格式提供数据，并将该数据所使用的标准或格式与所提供的数据一起打包，数据使用者按照该标准或格式自行解读并使用数据。它是传统数据标准体系的重要补充和突破。性质自标准数据打破了大家共同遵守统一标准的局限，给数据共享提供了更加切实可行的路径。其具有如下性质：（1）自标准数据是一种数据体，它既包含数据本身还包括数据格式；（2）自标准数据是元数据的一种特例，元数据与数据捆绑；（3）自标准数据是一种全新的数据共享模式，打破了传统的数据与标准脱离的局面；（4）自标准数据是一种客观、现实的数据管理策略，适应性强；（5）自标准数据是大数据的基本单元，采用自标准数据技术有利于大数据技术发展；（6）自标准数据是系统自治思想的应用。与传统数据库等的区别自标准数据离不开传统数据库及相关技术的支持，但仍有很多明显区别：（1）传统数据库里面的数据注重存储、查询、更新，二自标准数据更注重流动性，主要目的是数据共享；（2）传统数据库的元数据与数据分离，查询数据时在数据库系统上分析元数据，而自标准数据中的标准就相当于元数据，它不固定在数据库上，而是随着数据体一起流动；（3）传统数据库存储的数据量是积累性的，会越来越大，而自标准数据是增量性的，每次的体量可能变化不大，体量一般不大；（4）传统数据库的数据结构与数据本身加起来也可以看做是一种自标准数据体，只是体积大，不便于流动；反过来，自标准数据体可以看作是流动的数据库，只是体量较小；（5）传统数据库重视冗余，自标准数据不重视冗余，而重视时效性；（6）传统数据库结构是严格统一的，而自标准数据的格式和标准是允许自定义的；（7）传统数据库主要支持某个（些）专门软件，而自标准数据主要支持系统间数据共享；（8）与其他具体的大数据理论或技术相比，自标准数据主要是一种思想，可使用多种方式和技术实现。起源1998年，大庆油田开展了一个项目——《勘探、开发、钻井数据一体化共享》。该项目目标是建立一个油田内部数据共享的平台。当时认识到，“数据使用者急，积极性高；而提供者不急，积极性不高。”鉴于此，为了实现项目目标，项目组决定顺势而为。本人是项目负责人，当时我提出一个想法，叫做“数据码头”，就是数据提供者把数据放在指定位置就不管了，使用者自己去取，去处理。使用者再产生的数据也放到码头上。这样就调动了使用者的主动性，也减轻了提供者的工作量。该想法得到了项目组的认可。但后来大庆油田重组，勘探和钻井的大部分业务与油田开发分离，此项目下马。那时还是要求提供者按统一标准把数据放到“码头”上，提供者还要处理数据，所以没有把提供者的工作量减到最小。当时，还没有XML，也没元数据，也没想到用它来描述数据。2013年，大庆油田制定信息规划过程中，关于信息共享（十多年过去了，问题依然很多）进行了讨论。期间本人对“数据码头”思路进行了进一步的扩展，应用XML，让提供者按照自己的格式提供数据，还要包含这些数据的格式。这样，这些数据就成为了“自标准数据”，使用者能读明白，想怎么用就怎么用。大家都方便。2013年10月，本人为长安大学数字油田论坛第三届大会准备题为《数据多了就智能！》的演讲材料时，与数字油田研究所所长高志亮教授、高倩博士进行了较深入的探讨，形成了较完整的思路。本届论坛上，各位专家学者对“自标准数据”给予了充分肯定。参加会议的多位专家学者建议，简化传统数据标准，简政放权，大力推广“自标准数据”，并认为“自标准数据”将成为大数据时代的有力的信息共享的支撑性技术。相关技术配合自标准数据，本人进一步丰富了原来数据码头等概念，并进一步提出了数据泵的概念。数据码头，Data Dock，即数据提供者放数据的场所。数据提供者把数据放在指定位置就不管了，使用者自己去取，去处理。使用者再产生的数据也放到码头上。数据泵，Data Pump，是专门的抽取数据的部件，可以是