《大数据》配套之二：第2章-数据采集与预处理.pptx

下载文档 降价啦

32
0
约8.69千字
约 42页
2019-02-15 发布于广东
举报
版权申诉
保障服务

《大数据》配套之二：第2章-数据采集与预处理.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用大数据BIG DATA刘鹏　　主编　　　　张燕　张重生　张志立　副主编刘鹏教授，清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。主持完成科研项目25项，发表论文80余篇，出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编的《云计算》被全国高校普遍采用，被引用量排名中国计算机图书第一名。创办了知名的中国云计算（）和中国大数据（）网站。曾率队夺得2002 PennySort国际计算机排序比赛冠军，两次夺得全国高校科技比赛最高奖，并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”（排名第一）、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用第二章　数据采集与预处理2.1　大数据采集架构2.2　数据预处理原理2.3　数据仓库与ETL工具习题of422.1大数据采集架构第二章数据采集与预处理2.1.1概述如今，社会中各个机构、部门、公司、团体等正在实时不断地产生大量的信息，这些信息需要以简单的方式进行处理，同时又要十分准确且能迅速满足各种类型的数据（信息）需求者。这给我们带来了许多挑战，第一个挑战就是在大量的数据中收集需要的数据，下面介绍常用的大数据采集工具。of422.1大数据采集架构第二章数据采集与预处理2.1.2 常用大数据采集工具数据采集最传统的方式是企业自己的生产系统产生的数据，除上述生产系统中的数据外，企业的信息系统还充斥着大量的用户行为数据、日志式的活动数据、事件信息等，越来越多的企业通过架设日志采集系统来保存这些数据，希望通过这些数据获取其商业或社会价值。ChukwaFlume大数据采集工具ScribleKafkaof422.1大数据采集架构第二章数据采集与预处理在Flume中，外部输入称为Source（源），系统输出称为Sink（接收端）。Channel（通道）把Source和Sink链接在一起。Apache Chukwa项目与Flume有些相类似，Chukwa继承了Hadoop的伸缩性和鲁棒性。也内置一个功能强大的工具箱，用于显示系统监控和分析结果。互联网时代，网络爬虫也是许多企业获取数据的一种方式。Nutch就是网络爬虫中的娇娇者，Nutch是Apache旗下的开源项目，存在已经超过10年，拥有大量的忠实用户。Flume体系架构of422.1大数据采集架构第二章数据采集与预处理2.1.3 Apache Kafka数据采集Apache Kafka被设计成能够高效地处理大量实时数据，其特点是快速的、可扩展的、分布式的，分区的和可复制的。Kafka是用Scala语言编写的，虽然置身于Java阵营，但其并不遵循JMS规范。Topics（话题）：消息的分类名。Producers（消息发布者）：能够发布消息到Topics的进程。Consumers（消息接收者）：可以从Topics接收消息的进程。Broker（代理）：组成Kafka集群的单个节点。基本Kafka集群的工作流程of422.1大数据采集架构第二章数据采集与预处理 1、TopicsTopics是消息的分类名（或Feed的名称）。Kafka集群或Broker为每一个Topic都会维护一个分区日志。每一个分区日志是有序的消息序列，消息是连续追加到分区日志上，并且这些消息是不可更改的。 2、日志区分一个Topic可以有多个分区，这些分区可以作为并行处理的单元，从而使Kafka有能力高效地处理大量数据。Topics与日志分析of422.1大数据采集架构第二章数据采集与预处理 3、ProducersProducers是向它们选择的主题发布数据。生产者可以选择分配某个主题到哪个分区上。这可以通过使用循环的方式或通过任何其他的语义分函数来实现。 4、ConsumersKafka提供一种单独的消费者抽象，此抽象具有两种模式的特征消费组：Queuing 和Publish-Subscribe。 5、Apache Kafka的安装及使用因为Kafka是处理网络上请求，所以，应该为其创建一个专用的用户，这将便于对Kafka相关服务的管理，减少对服务器上其他服务的影响。of422.1大数据采集架构第二章数据采集与预处理使用useradd命令来创建一个Kafka用户：?$sudo useradd kafka –m使用passwd 命令来设置其密码：$sudo passwd kafaka接下来把kafaka用户添加到sudo管理组，以便kafaka用户具有安装Apache Kafka依赖库的权限。这里使用adduser命令来进行添加：$sud