《海量日志收集存储》.pdf

下载文档 降价啦

7
0
约6.72千字
约 29页
2016-03-03 发布于河南
举报
版权申诉
保障服务

《海量日志收集存储》.pdf

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《海量日志收集存储》.pdf

2015年07⽉分布式实时⽇志收⽹站框架组 xirong 集存储系统整体介绍 ❖ 系统背景 why ❖ 效果如何 how ❖ 系统架构 what ❖ 开源组件详解 ❖ 线上运维 ❖ 未来 ❖ ⼀组数据 5000wPV ，1500w ⽇志/⽇ ❖ ⽬前⽇志⽅案问题基于MSMQ/Rabbitmq消息队列的⽇志⽅案系统背景 net版：1分钟聚合错误⽇志+延迟30m/最⾼延迟60m 以上 java版：15秒聚合或者50条聚合存储数据：SqlServer + 7天 ❖ ⽇志⽬标低延迟：实时性- 秒级，分钟级海量性：数据存储1个⽉，甚⾄更多查询速度快如何使⽤ ❖ 多种条件组合 ❖ 列表+详情展⽰ ❖ ⽀持模糊查询 ❖ ⽀持⼿写sql （todo…… ）平滑的从使⽤SqlServer查询过渡到页⾯筛选查询系统架构业界⽇志收集的标准流程 flume ng ❖ Flume is a distributed, reliable, and available service for efﬁciently collecting, aggregating, and moving large amounts of log data. 可靠性：缓存本地-消费后-删除可恢复性：Replication/Multiplexing sink Kafka Sink kafka ❖ Apache Kafka is publish-subscribe messaging rethought as a distributed commit log. ❖ ⼀个分布式系统，易于向外扩展； ❖ 它同时为发布和订阅提供⾼吞吐量； ❖ 它⽀持多订阅者，当失败时能⾃动平衡消费者； ❖ 它将消息持久化到磁盘，因此可⽤于批量消费，例如ETL ，以及实时应⽤程序。 ❖ 话题（Topic ）/⽣产者（Producer ）/代理（Broker ）/消费者 ❖ 解耦、冗余、扩展性、异步通信 Kafka的存储布局⾮常简单。话题的每个分区对应⼀个逻辑⽇志。物理上，⼀个⽇志为相同⼤⼩的⼀组分段⽂件。每次⽣产者发布消息到⼀个分区，代理就将消息追加到最后⼀个段⽂件中。当发布的消息数量达到设定值或者经过⼀定的时间后，段⽂件真正写⼊磁盘中。写⼊完成后，消息公开给消费者。 Storm/JStorm ❖ a free and open source distributed realtime computation system ❖ 分布式、低延迟、⾼性能、易扩展、容错性 ❖ 基于消息的流⽔线处理模型，任