- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用
大数据
刘鹏 主编 张燕 张重生 张志立 副主编
BIG DATA
刘 鹏
全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用
大数据采集架构
of
42
3
2.1大数据采集架构
第二章 数据采集与预处理
如今,社会中各个机构、部门、公司、团体等正在实时不断地产生大量的信息,这些信息需要以简单的方式进行处理,同时又要十分准确且能迅速满足各种类型的数据(信息)需求者。这给我们带来了许多挑战,第一个挑战就是在大量的数据中收集需要的数据,下面介绍常用的大数据采集工具。
of
42
4
2.1.1概述
2.1大数据采集架构
第二章 数据采集与预处理
of
42
5
2.1.2 常用大数据采集工具
数据采集最传统的方式是企业自己的生产系统产生的数据,除上述生产系统中的数据外,企业的信息系统还充斥着大量的用户行为数据、日志式的活动数据、事件信息等,越来越多的企业通过架设日志采集系统来保存这些数据,希望通过这些数据获取其商业或社会价值。
2.1大数据采集架构
第二章 数据采集与预处理
of
42
6
在Flume中,外部输入称为Source(源),系统输出称为Sink(接收端)。Channel(通道)把Source和Sink链接在一起。
Apache Chukwa项目与Flume有些相类似,Chukwa继承了Hadoop的伸缩性和鲁棒性。也内置一个功能强大的工具箱,用于显示系统监控和分析结果。
互联网时代,网络爬虫也是许多企业获取数据的一种方式。Nutch就是网络爬虫中的娇娇者,Nutch是Apache旗下的开源项目,存在已经超过10年,拥有大量的忠实用户。
Flume体系架构
2.1大数据采集架构
第二章 数据采集与预处理
of
42
7
2.1.3 Apache Kafka数据采集
Apache Kafka被设计成能够高效地处理大量实时数据,其特点是快速的、可扩展的、分布式的,分区的和可复制的。Kafka是用Scala语言编写的,虽然置身于Java阵营,但其并不遵循JMS规范。
Topics(话题):消息的分类名。
Producers(消息发布者):能够发布消息到Topics的进程。
Consumers(消息接收者):可以从Topics接收消息的进程。
Broker(代理):组成Kafka集群的单个节点。
基本Kafka集群的工作流程
2.1大数据采集架构
第二章 数据采集与预处理
of
42
8
1、Topics
Topics是消息的分类名(或Feed的名称)。Kafka集群或Broker为每一个Topic都会维护一个分区日志。每一个分区日志是有序的消息序列,消息是连续追加到分区日志上,并且这些消息是不可更改的。
2、日志区分
一个Topic可以有多个分区,这些分区可以作为并行处理的单元,从而使Kafka有能力高效地处理大量数据。
Topics与日志分析
2.1大数据采集架构
第二章 数据采集与预处理
of
42
9
3、Producers
Producers是向它们选择的主题发布数据。生产者可以选择分配某个主题到哪个分区上。这可以通过使用循环的方式或通过任何其他的语义分函数来实现。
4、Consumers
Kafka提供一种单独的消费者抽象,此抽象具有两种模式的特征消费组:Queuing 和Publish-Subscribe。
5、Apache Kafka的安装及使用
因为Kafka是处理网络上请求,所以,应该为其创建一个专用的用户,这将便于对Kafka相关服务的管理,减少对服务器上其他服务的影响。
2.1大数据采集架构
第二章 数据采集与预处理
of
42
10
使用useradd命令来创建一个Kafka用户:
$sudo useradd kafka –m
使用passwd 命令来设置其密码:
$sudo passwd kafaka
接下来把kafaka用户添加到sudo管理组,以便kafaka用户具有安装Apache Kafka依赖库的权限。这里使用adduser命令来进行添加:
$sudo adduser kafka sudo
这时就可以使用kafka账户了。 切换用户可以使用su命令:
$su - kafka
在Apache Kafka安装所依赖的软件包前,最好更新一下apt管理程序的软件列表:
$sudo apt-get update
Apache Kafka需要Java运行环境,这里使用apt-get命令安装default-jre包,然后安装Java运行环境:
$sudo apt-get install default-jre
通过下面的命令测试一下Java运行环境是否安装成功,并查看Java的版本信息:
$java -v
您可能关注的文档
- (circuit)第六章5讲 正弦稳态电路的功率.ppt
- (内大)电力电子技术实验讲义.doc
- [SWFUPLOAD实例]SWFUPLOAD JAVA实例.pdf
- “班班通”使用操作培训(杨贵文).ppt
- “拒绝零食,杜绝垃圾”主题班会.ppt
- 《光电子技术基础》(第二版)朱京平 第8章 光通信无源器件技术.ppt
- 《煤矿安全规程》电气-孙继平.ppt
- 《光学教程》姚启钧原著 第三章 几何光学的基本原理.ppt
- 《太阳能》(上课用).ppt
- 《通信系统综合设计实训2》学习指导(2015).pdf
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江西省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年安徽省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年福建省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年广东省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河南省高考英语试卷(含答案解析)+听力音频.docx
- 2024年湖北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江苏省高考英语试卷(含答案解析)+听力音频+听力原文.docx
文档评论(0)