《数据中台之结构化大数据存储设计》.docVIP

下载本文档

34
0
约1.37万字
约 11页
2020-01-25 发布于天津
举报
版权申诉

《数据中台之结构化大数据存储设计》.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据中台之结构化大数据存储设计前言任何应用系统都离不开对数据的处理，数据也是驱动业务创新以及向智能化发展最核心的东西。这也是为何目前大多数企业都在构建数据中台的原因，数据处理的技术已经是核心竞争力。在一个完备的技术架构中，通常也会由应用系统以及数据系统构成。应用系统负责处理业务逻辑，而数据系统负责处理数据。传统的数据系统就是所谓的『大数据』技术，这是一个被创造出来的名词，代表着新的技术门槛。近几年得益于产业的发展、业务的创新、数据的爆发式增长以及开源技术的广泛应用，经历多年的磨炼以及在广大开发者的共建下，大数据的核心组件和技术架构日趋成熟。特别是随着云的发展，让『大数据』技术的使用门槛进一步降低，越来越多的业务创新会由数据来驱动完成。『大数据』技术会逐步向轻量化和智能化方向发展，最终也会成为一个研发工程师的必备技能之一，而这个过程必须是由云计算技术来驱动以及在云平台之上才能完成。应用系统和数据系统也会逐渐融合，数据系统不再隐藏在应用系统之后，而是也会贯穿在整个业务交互逻辑。传统的应用系统，重点在于交互。而现代的应用系统，在与你交互的同时，会慢慢的熟悉你。数据系统的发展驱动了业务系统的发展，从业务化到规模化，再到智能化。业务化：完成最基本的业务交互逻辑。规模化：分布式和大数据技术的应用，满足业务规模增长的需求以及数据的积累。智能化：人工智能技术的应用，挖掘数据的价值，驱动业务的创新。向规模化和智能化的发展，仍然存在一定的技术门槛。成熟的开源技术的应用能让一个大数据系统的搭建变得简单，同时大数据架构也变得很普遍，例如广为人知的Lambda架构，一定程度上降低了技术的入门门槛。但是对数据系统的后续维护，例如对大数据组件的规模化应用、运维管控和成本优化，需要掌握大数据、分布式技术及复杂环境下定位问题的能力，仍然具备很高的技术门槛。数据系统的核心组件包含数据管道、分布式存储和分布式计算，数据系统架构的搭建会是使用这些组件的组合拼装。每个组件各司其职，组件与组件之间进行上下游的数据交换，而不同模块的选择和组合是架构师面临的最大的挑战。本篇文章主要面向数据系统的研发工程师和架构师，我们会首先对数据系统核心组件进行拆解，介绍每个组件下对应的开源组件以及云上产品。之后会深入剖析数据系统中结构化数据的存储技术，介绍阿里云Tablestore选择哪种设计理念来更好的满足数据系统中对结构化数据存储的需求。数据系统架构核心组件上图是一个比较典型的技术架构，包含应用系统和数据系统。这个架构与具体业务无关联，主要用于体现一个数据应用系统中会包含的几大核心组件，以及组件间的数据流关系。应用系统主要实现了应用的主要业务逻辑，处理业务数据或应用元数据等。数据系统主要对业务数据及其他数据进行汇总和处理，对接BI、推荐或风控等系统。整个系统架构中，会包含以下比较常见的几大核心组件：关系数据库：用于主业务数据存储，提供事务型数据处理，是应用系统的核心数据存储。高速缓存：对复杂或操作代价昂贵的结果进行缓存，加速访问。搜索引擎：提供复杂条件查询和全文检索。队列：用于将数据处理流程异步化，衔接上下游对数据进行实时交换。异构数据存储之间进行上下游对接的核心组件，例如数据库系统与缓存系统或搜索系统间的数据对接。也用于数据的实时提取，在线存储到离线存储的实时归档。非结构化大数据存储：用于海量图片或视频等非结构化数据的存储，同时支持在线查询或离线计算的数据访问需求。结构化大数据存储：在线数据库也可作为结构化数据存储，但这里提到的结构化数据存储模块，更偏在线到离线的衔接，特征是能支持高吞吐数据写入以及大规模数据存储，存储和查询性能可线性扩展。可存储面向在线查询的非关系型数据，或者是用于关系数据库的历史数据归档，满足大规模和线性扩展的需求，也可存储面向离线分析的实时写入数据。批量计算：对非结构化数据和结构化数据进行数据分析，批量计算中又分为交互式分析和离线计算两类，离线计算需要满足对大规模数据集进行复杂分析的能力，交互式分析需要满足对中等规模数据集实时分析的能力。流计算：对非结构化数据和结构化数据进行流式数据分析，低延迟产出实时视图。对于数据存储组件我们再进一步分析，当前各类数据存储组件的设计是为满足不同场景下数据存储的需求，提供不同的数据模型抽象，以及面向在线和离线的不同的优化偏向。我们来看下下面这张详细对比表：派生数据体系在数据系统架构中，我们可以看到会存在多套存储组件。对于这些存储组件中的数据，有些是来自应用的直写，有些是来自其他存储组件的数据复制。例如业务关系数据库的数据通常是来自业务，而高速缓存和搜索引擎的数据，通常是来自业务数据库的数据同步与复制。不同用途的存储组件有不同类型的上下游数据链路，我们可以大概将其归类为主存储和辅存