- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华数下一代云电视平台功能说明
PAGE4 / NUMPAGES14
华数下一代云电视项目组
华数云梯平台
服务质量分析功能说明
2014年9月
文件修订记录
版本号
变化状态
简要说明
(变更内容和变更范围)
变更日期
变更人
备注
V0.1
C
2014/9/20
姚毅
V0.2
V0.3
V0.4
V1.1
*变化状态:C―创建,A—增加,M—修改,D—删除,R—复核
文件审批记录
版本号
审批人
角色
审批意见
签字
审批日期
V1.0
部门经理
同意
目录
TOC \o 1-3 \h \z \u 1. 概述 4
1.1. 适用范围 4
1.2. 参考资料 4
1.3. 缩略语 4
2. 模块功能 4
2.1. 整体架构图 4
2.2. 服务质量分析功能说明 4
2.2.1 各个系统日志收集功能 4
2.2.2 系统服务过程分析功能 13
2.2.3 系统质量审计功能 14
2.2.4 系统服务情况统计 14
2.3. 与其他模块关系 14
2.4. 对外接口描述 14
概述
适用范围
参考资料
缩略语
模块功能
整体架构图
服务质量分析功能说明
各个系统日志收集功能
系统日志收集模块负责收集所有华数下一代云电视平台的所有业务系统、平台的日志的收集,并分别给hadoop平台提供离线数据和Storm平台提供实时数据流,日志收集系统是基于Flume设计和搭建而成。
日志收集系统简介
日志收集是基石。收集业务日志数据,供离线和在线的分析系统使用,正是日志收集系统的要做的事情。高可用性,高可靠性和可扩展性是日志收集系统所具有的基本特征。
目前常用的开源日志收集系统有Flume, Scribe等。Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前已经是Apache的一个子项目。Scribe是Facebook开源的日志收集系统,它为日志的分布式收集,统一处理提供一个可扩展的,高容错的简单方案。
常用的开源日志收集系统对比
下面将对常见的开源日志收集系统Flume和Scribe的各方面进行对比。对比中Flume将主要采用Apache下的Flume-NG为参考对象。同时,我们将常用的日志收集系统分为三层(Agent层,Collector层和Store层)来进行对比。
对比项
Flume-NG
Scribe
使用语言
Java
c/c++
容错性
Agent和Collector间,Collector和Store间都有容错性,且提供三种级别的可靠性保证;
Agent和Collector间, Collector和Store之间有容错性;
负载均衡
Agent和Collector间,Collector和Store间有LoadBalance和Failover两种模式
无
可扩展性
好
好
Agent丰富程度
提供丰富的Agent,包括avro/thrift socket, text, tail等
主要是thrift端口
Store丰富程度
可以直接写hdfs, text, console, tcp;写hdfs时支持对text和sequence的压缩;
提供buffer, network, file(hdfs, text)等
代码结构
系统框架好,模块分明,易于开发
代码简单
日志收集系统架构
日志收集系统负责华数下一代云电视平台的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。目前每天收集和处理约T级别的日志数据。
日志收集系统的整体框架图如下图:
?
a. 整个系统分为三层:Agent层,Collector层和Store层。其中Agent层每个机器部署一个进程,负责对单机的日志收集工作;Collector层部署在中心服务器上,负责接收Agent层发送的日志,并且将日志根据路由规则写到相应的Store层中;Store层负责提供永久或者临时的日志存储服务,或者将日志流导向其它服务器。
b. Agent到Collector使用LoadBalance策略,将所有的日志均衡地发到所有的Collector上,达到负载均衡的目标,同时并处理单个Collector失效的问题。
c. Collector层的目标主要有三个:SinkHdfs, SinkKafka和SinkBypass。分别提供离线的数据到Hdfs,和提供实时的日志流到Kafka和Bypass。其中SinkHdfs又根据日志量的大小分为SinkHdfs_b,SinkHdfs_m和SinkHdfs_s三个Sink,以提高写入到
原创力文档


文档评论(0)