- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据收集与入库系统Flume与Sqoop
数据收集与入库系统
Flume与Sqoop
主要内容
1 背景介绍
2 Hadoop数据收集系统
3 传统数据库与Hadoop间数据同步
主要内容
1 背景介绍
2 Hadoop数据收集系统
3 传统数据库与Hadoop间数据同步
背景介绍
Ø Hadoop提供了一个中央化的存储系统:
ü 有利于进行集中式的数据分析与数据共享
Ø Hadoop对存储格式没有要求:
ü 用户访问日志;
ü 产品信息
ü 网页数据等
Ø 如何将数据存入Hadoop :
ü 数据分散在各个离散的设备上
ü 数据保存在传统的存储设备和系统中
常见两种数据来源
Ø 分散的数据源:
ü 机器产生的数据;
ü 用户访问日志;
ü 用户购买日志;
Ø 传统系统中的数据:
ü 传统关系型数据库:MySQL、Oracle等;
ü 磁盘阵列;
ü 磁带.
常见的数据收集与入库系统
Ø 数据收集
ü Flume
ü Kafka
ü Scribe
Ø 传统数据库与Hadoop同步
ü Sqoop
主要内容
1 背景介绍
2 Hadoop数据收集系统
3 传统数据库与Hadoop间数据同步
Hadoop数据收集系统:Flume
Ø Flume OG
ü OG : “Original Generation ”
ü 0.9.x或cdh3 以及更早版本
ü 由agent、collector、master等组件构成
Ø Flume NG
ü NG : “Next/New Generation ”
ü 1.x或cdh4 以及之后的版本
ü 由Agent 、Client等组件构成
Ø 为什么要推出NG版本
ü 精简代码
ü 架构简化
Flume基本架构
Flume基本架构
Agent
Ø 用于采集数据
Ø 数据流产生的地方
Ø 通常由source和sink两部分组成
ü Source用于获取数据,可从文本文件,syslog,HTTP等获
取数据;
ü Sink将Source获得的数据进一步传输给后面的Collector 。
Ø Flume 自带了很多source和sink实现
ü syslogTcp(5140) | agentSink(localhost,35853)
ü tail(/etc/services) | agentSink(localhost,35853)
Collector
Ø 汇总多个Agent结果
Ø 将汇总结果导入后端存储系统,比如HDFS,HBase
Ø Flume 自带了很多collector实现
ü collectorSource(35853) | console
ü CollectorSource(35853) | collectorSink(file:///tmp/flume/
collected, syslog);
ü collectorSource(35853) | collectorSink(hdfs://namenode/
user/flume/ ,syslog);
Agent与collector对应关系
Agent与collector对应关系
Ø 可手动指定,也可自动匹配
Ø
您可能关注的文档
- 数据业务高速发展态势下提升GSM网络承载性能的优化方法研究.pdf
- 数据业务分析利器_-_易谙便携版.pdf
- 数学建模 关于专车服务模式问题的研究.pdf
- 数据中心制冷方案.pdf
- 数据中心虚拟化管理手册.pdf
- 数据仓库实验sql server2000.pdf
- 数学建模-拟合与插值.pdf
- 数据分析和智能助力成功营销和客户体验.pdf
- 数据分析在GMP中的应用.pdf
- 数据处理与抗干扰技术.pdf
- 2025年影视工业化流程中的影视制片管理与成本控制报告.docx
- 2025年影视工业化流程中的影视特效制作技术创新与应用报告.docx
- 铜产业发展新蓝图.docx
- 2025年影视制作工业化生产流程改进与技术前瞻报告.docx
- 2025年影视制作工业化流程中的影视行业品牌建设策略报告.docx
- 新能源汽车电池热管理技术在电动汽车冷却系统中的高效热交换材料研究报告.docx
- 2025年影视制作工业化流程优化与技术革新对政策影响分析.docx
- 2025年影视工业化流程中的影视行业影视影视投资价值评估技术应用案例分析报告.docx
- 网络直播行业规范化背景下商业模式创新研究:2025发展趋势分析.docx
- 南京一中2024-2025学年第二学期期中考试 高二数学试卷及答案.docx
文档评论(0)