唯品会亿级数据服务平台落地实践.docxVIP

下载本文档

0
0
约9.61千字
约 22页
2021-11-16 发布于湖南
举报
版权申诉

唯品会亿级数据服务平台落地实践.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

唯品会亿级数据服务平台落地实践在统一数仓数据服务之前，数仓供应的访问接入方式往往存在效率问题低、数据目标难统一等问题，具体而言有以下几个比较突出的情况：广告人群 USP、DMP 系统每天需要通过 HiveServer 以流的方式从数仓导出数据到本地，每个人群的数据量从几十万到几个亿，人群数量 2w+，每个人群运转时间在 30min +，部分大人群的运转直接超过 1h，在资源紧急的情况下，人群延迟情况严峻。数仓的数据在被数据产品使用时，需要为每个表重生成一个单独的接口，应用端需要为每一种访问方式（如 Presto、ClickHouse）区分使用不同的接口，导致数据产品接口暴涨，不便利维护，影响开发及维护效率。数据在不同的存储时，需要包含 clickhouse-client，presto-client 等等第三方 jar 包。不同数据产品中都需要使用一些常用的数据目标，如销售额、订单数、PV、UV 等，而这些数据在不同数据产品的实现口径、实现方式都不一样，无法构成数据共享，每个数据产品都反复进行相同的目标建设。因而，在不同数据产品查看相同目标却发觉数值不同的情况下，难以推断哪个数据产品供应的数据是精确?????的。图 1.在统一数仓数据服务之前，数据流入流出方式为处理以上问题，数据服务应运而生。目前数据服务的次要优势有：屏蔽底层的存储引擎、计算引擎，使用同一个 API（one service），数仓数据分层存储，不同 engine 的 SQL 生成力量，自顺应 SQL 执行以及统一缓存架构保障业务 SLA，支持数据注册并授权给任何调用方进行使用，提高数据交付效率。通过独一的 ID 标识，数据产品可通过 ID 查阅数据，而非直接访问对应的数仓表。一方面，目标服务统一了目标的口径，同时也支持快速构建新的数据产品。架构设计数据服务能给业务带来运营和商业价值，核心在于给用户供应自助分析数据力量。Hera 全体架构基于典型的 Master/slave 模型，数据流与把握流单独链路，从而保障系统的高可用性。数据服务系统次要分为三层：应用接入层：业务申请接入时，可以依据业务要求选择数据服务 API（TCP Client）, HTTP 以及 OSP 服务接口（公司内部 RPC 框架）。数据服务层：次要执行业务提交的任务，并前往结果。次要功能点包括：路由策略，多引擎支持，引擎资源配置，引擎参数动态组装，SQLLispengine 生成，SQL 自顺应执行，统一数据查询缓存，FreeMaker SQL 动态生成等功能。数据层：业务查询的数据无论在数仓、Clickhouse、MySQL 还是 Redis 中，都可以很好地得到支持，用户都使用同一套 API。图 2. 数据服务全体架构图调度系统的全体流程大致包含以下模块： Master：担任管理全部的 Worker、TransferServer、AdhocWorker 节点，同时担任调度分发作业； Worker：担任执行 ETL 和数据文件导出类型的作业，拉起 AdhocWorker 进程（Adhoc 任务在 AdhocWorker 进程中的线程池中执行），ETL 类型的作业通过子进程的方式完成； Client：客户端，用于编程式地提交 SQL 作业； ConfigCenter：担任向集群推送统一配相信息及其它运转时相关的配置和 SQLParser （依据给定的规章解析、替换、生成改写 SQL 语句，以支持不同计算引擎的执行）； TransferServer：文件传输服务。图 3. 数据服务调度流程图次要功能 Hera 数据服务的次要功能有：多队列调度策略、多引擎查询、多任务类型、文件导出、资源隔离、引擎参数动态组装、自顺应 Engine 执行和 SQL 构建。多队列调度策略数据服务支持依据不同用户、不同任务类型并依据权重划分不同调度队列，以满足不同任务类型的 SLA。多引擎查询数据服务支持目前公司内部全部 OLAP 和数据库类型，包括 Spark、Presto、Clickhouse、Hive 、MySQL、Redis。会依据业务具体场景和要求，选择当前最佳的查询引擎。多任务类型数据服务支持的任务类型有：ETL、Adhoc、文件导出、数据导入。加上多引擎功能，实现多种功能组合，如 Spark adhoc 和 Presto adhoc。文件导出次要是支持大量的数据从数据仓库中导出，便于业务分析和处理，比如供应商发券和信息推送等。具体执行过程如下：用户提交需要导出数据的 SQL，通过分布式 engine 执行完成后，落地文件到 hdfs/alluxio. 客户端通过 TCP 拉取文件到本地。千万亿级的数据导出耗时最多 10min。数据导出在人群数据导出上功能由