传统数仓如何转型大数据?.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
传统数仓如何转型大数据? 数据仓库:数据仓库系统的次要应用次要是OLAP(On-Line Analytical Processing),支持简单的分析操作,侧重决策支持,并且供应直观易懂的查询结果。也就是说,数据仓库汇总有可能有很多维度数据的统计分析结果,取百家之长(各个数据源的数据),成就本人的一方天地(规划各种业务域的模型,目标)。 二、传统数仓开发 传统的数据仓库用Oracle的居多,多半是单机或者一个双机环境运转。本身硬件,系统都简约构成单点毛病。渐渐进展,应当会开头通过存储构成容灾的一个环境。 我了解的传统的数据开发一般分为3个岗位:数据工程师、ETL工程师、数据仓库架构师,大多数人属于前两者。 数据工程师:依据业务人员提交的规律来编写“存储过程”,他们能够很轻松的编写上千行的简单规律SQL。在编写SQL多年阅历中,把握了各种关联查询、聚合查询、窗口函数,甚至还可以用SQL本人编写一些Function,最终组合成了存储过程。 ETL工程师:传统数据仓库只要在大型企业中一般才会有,比如电信、银行、保险等行业。他们都会选购一些ETL工具,比如Informatica或者和第三方共建ETL工具,比如和华为、亚信等。这些ETL工具功能格外强大。ETL工程师可以通过在平台上拖拉拽的方式进行数据加工处理,同时ETL平台的组件还可以支撑一些脚本的上传,所以ETL工程师结合数据工程师开发的简单存储过程,在平台上进行加工设计,最终构成一个个定时任务。然后他们还担任每天监控这些定时任务的形态,对于重要部门的ETL人员还经常会熬夜值班监控。 数据仓库架构师:数据仓库是依靠规范来有序进行的,架构师就是来建立这些规范的,包括数据仓库的分层、模型命名、目标命名、ETL任务命名、ETL任务编排规范、存储过程开发规范等等,最终构成《XX数据仓库建设规范》,然后数据工程师和ETL工程师依据规范进行任务开发。假如遇到严重业务变更,比如主数据变更,需要和数据仓库架构师评审后修改完善。 三、大数据开发 现在的大数据架构多了一些东西,比如数据采集Flume、消息对垒kafka、计算引擎MR、Spark以及实时计算框架,这些都是以前传统数据仓库架构下没有的。 Flume Flume是一种分布式、高牢靠和高可用的服务,用于高效地收集、聚合和移动大量日志数据。它有一个简约而机警的基于流数据流的体系结构。它具有可调的牢靠性机制、毛病转移和恢复机制,具有强大的容错力量。它使用一个简约的可扩展数据模型,允许在线分析应用程序。Flume的设计宗旨是向Hadoop集群批量导入基于大事的海量数据。系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连接起来构成。每一个agent相当于一个数据传递员,内部有三个组件: source:?采集源,用于跟数据源对接,以猎取数据 sink:传送数据的目的地,用于往下一级agent或者最终存储系统传递数据 channel:agent内部的数据传输通道,用于从source传输数据到sink kafka Kafka是最后由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2021年贡献给了Apache基金会并成为顶级开源项目。 次要应用场景是:日志收集系统和消息系统。 Kafka次要设计目标如下: 供应消息长久化力量,即便对TB级以上数据也能保证常数时间的访问功能。 高吞吐率。即便在格外廉价的商用机器上也能做到单机支持每秒100K条消息的传输。 支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息挨次传输。 同时支持离线数据处理和实时数据处理。 Scale out:支持在线水平扩展 大数据计算引擎 近几年消灭了很多抢手的开源社区,其中有名的有 Hadoop、Storm,以及后来的Spark、Flink,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速进展。Spark的火热或多或少的掩盖了其他分布式计算的系统身影。不过目前Flink在阿里的力推之下,也渐渐占据着实时处理的市场。其实大数据的计算引擎分成了三代: 第一代计算引擎?MapReduce 无疑就是Hadoop承载的 MapReduce。这里大家应当都不会对MapReduce生疏,它将计算分为两个阶段,分别为 Map 和 Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个 Job 的串联,以完成一个完整的算法,例如迭代计算。MR每次计算都会和HDFS交互,和磁盘交互意味着产生更多的

文档评论(0)

bob157641554 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档