大数据时代,数据湖并不能完全取代数据仓库.docxVIP

大数据时代,数据湖并不能完全取代数据仓库.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 大数据时代,数据湖并不能完全取代数据仓库 大数据系统并不能直接替代数据仓库和数据集市。实际上,数据仓库和数据湖之间存在协同作用。 数据仓库为组织了解其历史业务表现和推动持续运营供应了一个接入窗口,为数据分析师和业务用户供应了诸如客户行为、业务趋势、运营效率和销售等方面的信息。 但作为数据管理体系结构的一部分,在对数据仓库平台进行投资之前,首先还是要检查您的组织是否真的需要一个数据仓库平台,以及通过实施部署,组织可以借此获取哪些业务收益。相关的,您必需考虑不同的数据仓库部署状况——在企业范围内还是部门范围内,在本地还是在云中。 您还需要确定,通常存储在大数据系统中的非结构化和半结构化数据,是否会成为数据仓库环境的组成部分,并确定是否将用于BI、企业报告和在线分析处理(OLAP)等应用的传统数据仓库,与数据处理和大数据分析管理集成在一起。最终,您必需将您的数据仓库用例与最合适类型的数据仓库平台相匹配。 为什么需要数据仓库? 数据仓库的一般概念特别简洁:从支持业务流程的操作系统中定期提取数据副本,并将其加载到单独的存储库中,在该存储库中,数据将被合并,然后可用于分析和报告。之后,业务用户和分析师可以通过BI和分析工具、仪表板、入口和预备好的报告来访问数据。 在下面这些状况下,数据仓库可能更简单发挥其价值: 公司在做出有效的商业活动报告方面遇到了难题,因为所需要的数据不简单获得。 不同部门和用户组会将业务数据复制到电子表格中以进行分析,而这些电子表格并非总是相互全都的。 数据质量和精确性的不确定性,导致企业高管和业务经理睬质疑报告的精确性。 针对生产数据库的BI报告会每晚延迟,或在月底进行的交易数据处理,需要扩展处理窗口。 在工作日对数据库运行临时查询会降低操作系统的速度,从而影响内部用户和客户、供应商以及其他外部用户。 一个正确数据仓库实施策略可以帮助您的组织精确地回答有关业务运营的问题,如发生了什么、为什么。数据仓库可将来自不同位置和来源的数据组合到中央存储库中,从而提高数据的可访问性。当数据移至数据仓库时,通常还会对其进行清理和转换,以使其与分析全都,这将有助于提高查询结果和报告中信息的质量。 此外,一旦数据仓库部署完成并得到积极使用,由于BI、报告和分析活动已从生产数据库中移出,运营工作流程可能会变得更有效率。 数据仓库的部署 各个组织之间的数据仓库环境可能会有很大差异。从体系结构的角度来看,部署可以遵循多个路径——如一个企业数据仓库(EDW),一组较小的数据集市,或这两种方法的组合。 EDW包含来自企业操作系统的全部相关数据,并且可能包含一些从外部数据源收集的数据。它是用于BI和分析数据的单个统一存储库,可以在全部部门和业务部门中使用。因此,建立EDW通常是一项艰难的任务,尤其是在大型企业中。 在EDW架构中,组织还可以在其操作系统和企业数据仓库之间实施运营数据存储(ODS)作为过渡步骤。将运营数据复制到ODS,然后提取并加载到数据仓库中。ODS可以用作尚未经过转换的、无法用于分析的数据的暂存区,同时可以用于运行近实时的查询,这些查询需要最新的业务运营的具体相关数据,而不是数据仓库中可用的数据。 数据集市是小型化的数据仓库,专注于各个业务部门和职能领域。当需要满意部门对BI的特定需求时,组织通常会选择建立数据集市,并且优先考虑报告功能。数据集市不需要涵盖整个企业的浩大项目,而是更加集中,并且可以更快地供应业务收益。 因此,数据集市的方法使组织可以通过一次处理一个业务的各个部分——而不是构建整体的EDW——以迭代方式开发数据仓库体系架构。企业可以选择部署一个或多个数据集市,详细取决于组织的规模和结构。 然后,打算组合采用这两种方法的组织,可以将不同的数据集市彼此集成以创建虚拟EDW,或以物理方式填充一个EDW。另一种方式是,以EDW开始的组织可以将仓库数据的子集供应给后来建立的数据集市,以此分别业务运营。 本地与云数据仓库 每种可用的数据仓库平台类型都有不同的部署选项:数据库管理系统(DBMS)软件,通常基于关系数据库技术;特地的分析型DBMS;数据仓库设备将必要的硬件和DBMS软件捆绑在一个包装中;云数据仓库。 将云用于数据仓库已成为更可行的选择。有些供应商已经推出了特定于云的数据仓库平台,而且有些最初设定为本地安装的数据仓库数据库,其供应商现在也供应了基于云的版本。此类产品包括组织自己在云中运行的常规数据仓库系统,以及供应商为用户部署和管理的数据

文档评论(0)

认证主体菲亚企业管理咨询服务(天津自贸试验区)有限公司
IP属地天津
统一社会信用代码/组织机构代码
91120118MA05M78NXX

1亿VIP精品文档

相关文档