大数据采集服务Lancer系统设计与实践光环大数据培训.pdfVIP

大数据采集服务Lancer系统设计与实践光环大数据培训.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
光环大数据--大数据培训知名品牌 大数据采集服务Lancer 系统设计与实践_光环大数据培训 光环大数据培训机构,数据采集是大数据的基石,近几年随着业务的高速增 长,产生的数据量越来越大,并且会持续快速增长。因而对采集系统的实时性, 稳定性以及可靠性也提出了更高的要求。 本文主要介绍了日志采集系统Lancer 的整体架构包括各组件设计及优化 B 站原有的大数据采集服务存在的问题包括: 系统支撑能力不足 原生Flume 坑多,性能较差 异构系统较多,支持比较困难,缺乏统一的协议层标准 早期资源不足的情况下,应用的部署也不是很合理,没有做到应用的物理隔 离 埋点接入混乱 埋点错埋、漏埋、随意埋 数据无保障,易丢失、出现问题难以排查和恢复 光环大数据 光环大数据--大数据培训知名品牌 缺乏自动化接入流程,业务方接入过程耗时耗力 缺乏一套完整的数据监控体系对数据流链路进行监控 数据覆盖不完全 终端覆盖率不足 业务场景覆盖不够全面 架构 基于这些问题的存在,我们确立了新数据采集系统的整体设计目标,首先, 性能上要做到高吞吐和低延时;其次,质量上要保证数据的安全性和时效性;最 后,要做到系统高可用,提供数据灾备,保证数据零丢失。在这样的系统设计目 标之下,我们按照如下结构设计了系统: 图一:Lancer 系统整体架构 从系统架构中可以看出,该系统主要有两种数据流向,分别是实时流和离线 流,前者对应流式埋点数据的上报,数据产生并实时上报至网关层;后者对应批 量数据的同步,例如从数据库批量的对数据进行同步操作。 光环大数据 光环大数据--大数据培训知名品牌 以实时流数据为例,数据源包括服务端以及客户端,服务端日志可以通过统 一上报模块SDK 以Tcp/Udp/LogStream(基于Tcp 实现的私有协议,可以获得更 高的传输效率)进行数据的收集并上报,而客户端通过客户端数据采集 SDK 以 Http(s)根据不同的网络环境按一定策略将压缩后的数据进行上报。之后由统一 的网关层Lancer-Gateway 接收上报的数据,并写入到数据缓冲层(Kafka),最 后由数据分发层将数据从数据缓冲层中拉取,将数据写入到数据存储层(包括 HDFS、HIVE、ES、HBASE 等),提供给后续的数据仓库、实时计算或者其他业务 部门自订阅和消费。 离线流基于Sqoop,实现了数据库数据的批量同步功能,并支持分发到不同 终端的功能,关于离线流的讨论本文不做展开。 基于Flume 的数据网关层和分发层的实现方案 Flume 是由 Cloudera 软件公司产出的可分布式日志收集系统,后于 2009 年被捐赠了apache 软件基金会,现已成为apache top 项目之一。它是一个分布 式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定 制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并 写到各种数据接受方(比如文本、HDFS、Hbase,kafka 等)的能力。 Flume 以agent 为最小的独立运行单位,单agent 由Source,Channel 和Sink 三大组件组成,而Event 作为数据在Flume 中传递的单位。 光环大数据 光环大数据--大数据培训知名品牌 图二:原生Flume 数据流 Flume 的数据流由事件(Event)贯穿始终。Event 是Flume 的基本数据单位, 它携带日志数据(字节数组形式)并且携带有header 头信息,这些Event 由Agent 外

您可能关注的文档

文档评论(0)

186****8818 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档