- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《海量日志收集存储》.pdf
2015年07⽉
分布式实时⽇志收 ⽹站框架组
xirong
集存储系统
整体介绍
❖ 系统背景 why
❖ 效果如何 how
❖ 系统架构 what
❖ 开源组件详解
❖ 线上运维
❖ 未来
❖ ⼀组数据
5000wPV ,1500w ⽇志/⽇
❖ ⽬前⽇志⽅案问题
基于MSMQ/Rabbitmq消息队列的⽇志⽅案
系统背景 net版:1分钟聚合错误⽇志+延迟30m/最⾼延
迟60m 以上
java版:15秒聚合或者50条聚合
存储数据:SqlServer + 7天
❖ ⽇志⽬标
低延迟:实时性- 秒级,分钟级
海量性 :数据存储1个⽉,甚⾄更多
查询速度快
如何使⽤
❖ 多种条件组合
❖ 列表+详情展⽰
❖ ⽀持模糊查询
❖ ⽀持⼿写sql (todo…… )
平滑的从使⽤SqlServer查询过渡到页⾯筛选查询
系统架构
业界⽇志收集的标准流程
flume ng
❖ Flume is a distributed, reliable, and available service for
efficiently collecting, aggregating, and moving large
amounts of log data.
可靠性:缓存本地-消费后-删除
可恢复性:Replication/Multiplexing
sink
Kafka Sink
kafka
❖ Apache Kafka is publish-subscribe messaging rethought as a
distributed commit log.
❖ ⼀个分布式系统,易于向外扩展;
❖ 它同时为发布和订阅提供⾼吞吐量;
❖ 它⽀持多订阅者,当失败时能⾃动平衡消费者;
❖ 它将消息持久化到磁盘,因此可⽤于批量消费,例如ETL ,以
及实时应⽤程序。
❖ 话题(Topic )/⽣产者(Producer )/代理(Broker )/消费者
❖ 解耦、冗余、扩展性、异步通信
Kafka的存储布局⾮常简单。话题的每个分区对应⼀个逻辑⽇志。物理上,⼀个⽇志为相同⼤
⼩的⼀组分段⽂件。每次⽣产者发布消息到⼀个分区,代理就将消息追加到最后⼀个段⽂件
中。当发布的消息数量达到设定值或者经过⼀定的时间后,段⽂件真正写⼊磁盘中。写⼊完
成后,消息公开给消费者。
Storm/JStorm
❖ a free and open source distributed realtime computation
system
❖ 分布式、低延迟、⾼性能、易扩展、容错性
❖ 基于消息的流⽔线处理模型,任
文档评论(0)