大数据建设之数据盘点需求.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据建设之数据盘点需求

大数据是当前最炙手可热的技术方向了,但是对于大多数的传统企业和组织而言,

虽然对大数据有了一定的了解,但是具体应该如何应用大数据的技术来帮助企业和组

织提高效率、降低成本、优化业务等,仍然不够清晰明朗。

本文试解释大数据应用的整体过程并对初始应用大数据的切入点进行展开阐述。

1前言

严格意义上说,大数据可以算是一个伪命题:大数据概念的产生只是折射了组织

机构中数据极速增长的情况。但是这种增长不是一夜产生的,过去也存在,并且至今

也没有一个被广泛认同的大数据的定义标准(例如容量多少算大?价值密度的考量标

准?数据增长速度多少算大数据?实时性的具体要求?)。所以,现在所谓的大数据

与原来的数据需求并没有本质的不同,只是有一些新的技术出现能够更好地支持对较

大规模数据的处理,并且维持一个相对合理的成本(硬件使用成本和时间开销成本)。

但是,有一些声音把Hadoop与大数据等同起来也是不恰当的。Hadoop所带来

的分布式计算的思想无疑是解决大规模数据处理的基础,但并不意味着Hadoop是放

之四海而皆准的技术框架。

企业和组织中的数据已经成为良好竞争力的基石,能够帮助到生产效率的提高、

企业增长和创新。但是快速增长的数据也带来了新的挑战:如何理解数据并从中寻找

价值、达成生产效率的调高、企业的增长和创新?

大数据技术开始普及之初,差不多所有对数据量的讨论都聚焦在基于互联网产生

的海量数据和多媒体类型的数据,而几乎没有人对企业已有的数据进行深入分析和应

用。但同时稍具经验的人也同意互联网数据的质量与企业内部数据的质量相比是天差

和地别。

2大数据应用过程概述

所有的数据应用,无论数据是大还是小,是基于传统的数据仓库还是新兴起的大

数据技术,都需要两个大的阶段:数据准备阶段和数据应用阶段。其中数据准备阶段

又可以分为数据采集、数据存储和数据管理三个部分(注意,不是三个环节,因为未

必是三个割裂的步骤),数据应用阶段大体上包括数据分析与挖掘、数据展现与应用。

传统的数据平台(并非大数据独有的)通常会包括ODS(OperationalDataStore)、

数据仓库(DW–DataWarehouse)、数据集市(DM–DataMart)这三个数据存储与

计算的节点,中间基本上依靠ETL工具或定制化的开发来实现数据的流转。这种体系

架构的定义是因为局限于传统IT体系架构的处理能力和企业对数据管理/治理的重视

程度:

传统的IOE架构(垂直体系架构、RDBMS数据库的方式)由于成本高及处理能力

上限较低的问题,所以无法以一个统一的数据平台支持全企业范围的数据管理及

后续应用的需求。这样的体系架构带来的问题也很多:

没有一个企业范围的统一数据平台将导致每个数据应用项目单独从数据采集、

数据预处理到数据存储等环节都需要单独建设——重复建设、效率低下;

因为数据并非全企业范围的,往往导致数据维度有欠缺;

由于多个入口,后期维护的成本和人员开销也大,还容易导致数据冗余和一致

性问题。

认知问题导致仅仅重视最终的数据应用的建设,但是忽视前期的数据准备环节的

建设——无论从成本投入上还是项目周期上及组织协调上都没有做到全企业范围

一盘棋,导致每个项目没有对数据准备做充分的工作。

为了改变上述存在的问题,企业(政府)应该构造一个全组织范围统一的数据管

理平台,这个平台需要采用先进的分布式的体系架构来规避大规模数据存储与访问的

成本、水平扩展及效率上的问题。只有先解决了这个问题,才能真正面向全组织范围

进行数据的汇集(采集后存储)。

在这个过程中,为了形成小步骤迭代的实际效果,应先尽可能多的汇集数据。对

汇集的数据先按照原生状态进行存储与基本管理,在后续的时间中进行小步骤、短循

环的数据预处理的迭代——即进行一些数据的梳理、不断提升数据质量、数据标准化

与主数据的制订等,并形成主题数据。部署结构可以参考下图。

图1-数据汇聚管理平台

上图给出了部署的示意,但是每个

文档评论(0)

166****2158 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档