- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
光环大数据--大数据培训知名品牌
大数据采集服务Lancer 系统设计与实践_光环大数据培训
光环大数据培训机构,数据采集是大数据的基石,近几年随着业务的高速增
长,产生的数据量越来越大,并且会持续快速增长。因而对采集系统的实时性,
稳定性以及可靠性也提出了更高的要求。
本文主要介绍了日志采集系统Lancer 的整体架构包括各组件设计及优化
B 站原有的大数据采集服务存在的问题包括:
系统支撑能力不足
原生Flume 坑多,性能较差
异构系统较多,支持比较困难,缺乏统一的协议层标准
早期资源不足的情况下,应用的部署也不是很合理,没有做到应用的物理隔
离
埋点接入混乱
埋点错埋、漏埋、随意埋
数据无保障,易丢失、出现问题难以排查和恢复
光环大数据
光环大数据--大数据培训知名品牌
缺乏自动化接入流程,业务方接入过程耗时耗力
缺乏一套完整的数据监控体系对数据流链路进行监控
数据覆盖不完全
终端覆盖率不足
业务场景覆盖不够全面
架构
基于这些问题的存在,我们确立了新数据采集系统的整体设计目标,首先,
性能上要做到高吞吐和低延时;其次,质量上要保证数据的安全性和时效性;最
后,要做到系统高可用,提供数据灾备,保证数据零丢失。在这样的系统设计目
标之下,我们按照如下结构设计了系统:
图一:Lancer 系统整体架构
从系统架构中可以看出,该系统主要有两种数据流向,分别是实时流和离线
流,前者对应流式埋点数据的上报,数据产生并实时上报至网关层;后者对应批
量数据的同步,例如从数据库批量的对数据进行同步操作。
光环大数据
光环大数据--大数据培训知名品牌
以实时流数据为例,数据源包括服务端以及客户端,服务端日志可以通过统
一上报模块SDK 以Tcp/Udp/LogStream(基于Tcp 实现的私有协议,可以获得更
高的传输效率)进行数据的收集并上报,而客户端通过客户端数据采集 SDK 以
Http(s)根据不同的网络环境按一定策略将压缩后的数据进行上报。之后由统一
的网关层Lancer-Gateway 接收上报的数据,并写入到数据缓冲层(Kafka),最
后由数据分发层将数据从数据缓冲层中拉取,将数据写入到数据存储层(包括
HDFS、HIVE、ES、HBASE 等),提供给后续的数据仓库、实时计算或者其他业务
部门自订阅和消费。
离线流基于Sqoop,实现了数据库数据的批量同步功能,并支持分发到不同
终端的功能,关于离线流的讨论本文不做展开。
基于Flume 的数据网关层和分发层的实现方案
Flume 是由 Cloudera 软件公司产出的可分布式日志收集系统,后于 2009
年被捐赠了apache 软件基金会,现已成为apache top 项目之一。它是一个分布
式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定
制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并
写到各种数据接受方(比如文本、HDFS、Hbase,kafka 等)的能力。
Flume 以agent 为最小的独立运行单位,单agent 由Source,Channel 和Sink
三大组件组成,而Event 作为数据在Flume 中传递的单位。
光环大数据
光环大数据--大数据培训知名品牌
图二:原生Flume 数据流
Flume 的数据流由事件(Event)贯穿始终。Event 是Flume 的基本数据单位,
它携带日志数据(字节数组形式)并且携带有header 头信息,这些Event 由Agent
外
您可能关注的文档
- 高二物理波的干涉.ppt
- 九年级政治公平合作.ppt
- 生产决策与成本分析.ppt
- 晚期NSCLC一线对二线治疗的影响.ppt
- 五年级语文梅花魂.ppt
- 议论文的开头语段用.ppt
- 长效钢水热管的研究与工业应用海南会议.doc
- 中考数学复习一元二次方程的根的判别式2[人教版].ppt
- 重庆实业0007362011年年度报告摘要.pdf
- 2018初级会计职称经济法真题解析一.pdf
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
最近下载
- 工程项目成本分析表(房建).xls VIP
- 道路交通标志和标线(GB5768-2009).docx VIP
- 2024年全国高级配电线路工技能考试题库及答案.docx VIP
- 颗粒级配曲线不均匀系数计算.xls VIP
- 建筑工程CAD网络课程项目申报书--.docx VIP
- 《我与地坛(节选)》同步练习 统编版高中语文必修上册.docx VIP
- 道路交通标志和标线+第1部分:总则.docx VIP
- 2025年秋季学期-2026年春季学期中小学校(幼儿园)大宗食材(肉蛋)采购及配送项目方案投标文件(技术方案).doc VIP
- 耐高压PICC置管课件.ppt VIP
- 功能性子宫出血病历模板.pdf VIP
文档评论(0)