大数据处理平台的架构演进及优化.pdfVIP

下载本文档

12
0
约7.37千字
约 21页
2020-08-11 发布于云南
举报
版权申诉

大数据处理平台的架构演进及优化.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据处理平台的架构演进及优化 1 目录一、背景介绍 3 二、平台演进 5 三、 Tian 2.0 功能模块 9 四、总结 21 2 一、背景介绍本次要分享的是 360 大数据中心数据处理平台 Titan 的架构演进，以及一些具体的实践过程。在当今的大数据时代，大数据计算引擎已经从原先最早的 Hadoop 生态系统演变到了第三代甚至是第四代计算引擎，比如 Spark 以及 Flink 等；存储引擎也是呈现多样化的发展，如支持 MPP 的关系型存储、分布式存储、时序数据库等。大数据生态的多样性给大数据开发的学习成本造成了很大程度的提高。然而，当前我们的主流开发模式还是基于脚本开发，业务人员无法参与到我们的计算中来，这种开发模式在很大程度上依赖开发人员的效率，数据的时效性会难以保证。同时，数据开发过程中的数据流转全程黑盒，这给开发维护人员带来了很大的维护困难。最后，缺乏统一的资源调度导致资源长时间被占用不释放，从而引起资源浪费。以上是大数据开发人员所面临的问题和挑战。从平台的角度来看，以 360 公司为例，公司产品形态多样化，包括了 PC 产品、 WEB 产品、移动端产品等等，多样化的产品意味着数据处理平台面临着繁杂的数据类型，同时也必然面临了多样化的存储引擎及存储格式。此外，在大数据时代，数据处理的场景已经不再停留在简单的 ETL 过程，不仅仅包括简单的指标计算，还需要涵盖数据解析、数据分析、机器挖掘等等。随着数据对产品的指导作用越来越重要，业务对数据的时效、规则生效的时效以及需求响应的时效有了非常高的要求。 3 从大数据开发人员和平台开发的角度分析了当前面临的问题和挑战之后，接下来我们来看看要如何通过平台来解决这些问题。 4 二、平台演进 Titan 大数据处理平台是 360 集团内部的一站式大数据处理应用平台，提供了数据集成、数据同步、数据计算、数据分析以及流式数据处理等大数据处理应用场景的功能。既然是演进，那就要从前世讲到今生了。我们的平台化进程基本可以分为三个阶段：第一阶段： Titan 前这个阶段的架构图如下图 1 所示：图 1 Titan 前架构 5 这个时期分布式计算兴起，从传统单机计算过渡到了分布式计算，在分布式计算引擎的基础上抽象了各类脚本模板，基于此，我们的工作模式从纯手工劳作转变到了脚本模板的开发。开发模式的转变使得我们的计算效率和开发效率得到了很大程度的提升。但随着产品爆发式的增长、场景的增多，脚本模板无法提供灵活的方式，依然需要铺大量的人力解决。第二阶段： Titan 1.0 这个阶段的架构图如下图 2 所示：图 2 Titan 1.0 架构