传统数仓如何转型大数据？.docxVIP

下载本文档

5
0
约2.93千字
约 6页
2021-11-13 发布于湖南
举报
版权申诉

传统数仓如何转型大数据？.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

传统数仓如何转型大数据？数据仓库：数据仓库系统的次要应用次要是OLAP（On-Line Analytical Processing），支持简单的分析操作，侧重决策支持，并且供应直观易懂的查询结果。也就是说，数据仓库汇总有可能有很多维度数据的统计分析结果，取百家之长（各个数据源的数据），成就本人的一方天地（规划各种业务域的模型，目标）。二、传统数仓开发传统的数据仓库用Oracle的居多，多半是单机或者一个双机环境运转。本身硬件，系统都简约构成单点毛病。渐渐进展，应当会开头通过存储构成容灾的一个环境。我了解的传统的数据开发一般分为3个岗位：数据工程师、ETL工程师、数据仓库架构师，大多数人属于前两者。数据工程师：依据业务人员提交的规律来编写“存储过程”，他们能够很轻松的编写上千行的简单规律SQL。在编写SQL多年阅历中，把握了各种关联查询、聚合查询、窗口函数，甚至还可以用SQL本人编写一些Function，最终组合成了存储过程。 ETL工程师：传统数据仓库只要在大型企业中一般才会有，比如电信、银行、保险等行业。他们都会选购一些ETL工具，比如Informatica或者和第三方共建ETL工具，比如和华为、亚信等。这些ETL工具功能格外强大。ETL工程师可以通过在平台上拖拉拽的方式进行数据加工处理，同时ETL平台的组件还可以支撑一些脚本的上传，所以ETL工程师结合数据工程师开发的简单存储过程，在平台上进行加工设计，最终构成一个个定时任务。然后他们还担任每天监控这些定时任务的形态，对于重要部门的ETL人员还经常会熬夜值班监控。数据仓库架构师：数据仓库是依靠规范来有序进行的，架构师就是来建立这些规范的，包括数据仓库的分层、模型命名、目标命名、ETL任务命名、ETL任务编排规范、存储过程开发规范等等，最终构成《XX数据仓库建设规范》，然后数据工程师和ETL工程师依据规范进行任务开发。假如遇到严重业务变更，比如主数据变更，需要和数据仓库架构师评审后修改完善。三、大数据开发现在的大数据架构多了一些东西，比如数据采集Flume、消息对垒kafka、计算引擎MR、Spark以及实时计算框架，这些都是以前传统数据仓库架构下没有的。 Flume Flume是一种分布式、高牢靠和高可用的服务，用于高效地收集、聚合和移动大量日志数据。它有一个简约而机警的基于流数据流的体系结构。它具有可调的牢靠性机制、毛病转移和恢复机制，具有强大的容错力量。它使用一个简约的可扩展数据模型，允许在线分析应用程序。Flume的设计宗旨是向Hadoop集群批量导入基于大事的海量数据。系统中最核心的角色是agent，Flume采集系统就是由一个个agent所连接起来构成。每一个agent相当于一个数据传递员，内部有三个组件： source:?采集源，用于跟数据源对接，以猎取数据 sink：传送数据的目的地，用于往下一级agent或者最终存储系统传递数据 channel：agent内部的数据传输通道，用于从source传输数据到sink kafka Kafka是最后由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2021年贡献给了Apache基金会并成为顶级开源项目。次要应用场景是：日志收集系统和消息系统。 Kafka次要设计目标如下：供应消息长久化力量，即便对TB级以上数据也能保证常数时间的访问功能。高吞吐率。即便在格外廉价的商用机器上也能做到单机支持每秒100K条消息的传输。支持Kafka Server间的消息分区，及分布式消费，同时保证每个partition内的消息挨次传输。同时支持离线数据处理和实时数据处理。 Scale out:支持在线水平扩展大数据计算引擎近几年消灭了很多抢手的开源社区，其中有名的有 Hadoop、Storm，以及后来的Spark、Flink，他们都有着各自专注的应用场景。Spark掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速进展。Spark的火热或多或少的掩盖了其他分布式计算的系统身影。不过目前Flink在阿里的力推之下，也渐渐占据着实时处理的市场。其实大数据的计算引擎分成了三代：第一代计算引擎?MapReduce 无疑就是Hadoop承载的 MapReduce。这里大家应当都不会对MapReduce生疏，它将计算分为两个阶段，分别为 Map 和 Reduce。对于上层应用来说，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个 Job 的串联，以完成一个完整的算法，例如迭代计算。MR每次计算都会和HDFS交互，和磁盘交互意味着产生更多的