网站大量收购闲置独家精品文档,联系QQ:2885784924

《大数据》配套之二:第2章 数据采集与预处理.pptxVIP

《大数据》配套之二:第2章 数据采集与预处理.pptx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用 大数据 刘鹏  主编    张燕 张重生 张志立  副主编 BIG DATA 刘 鹏 全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用 大数据采集架构 of 42 3 2.1大数据采集架构 第二章 数据采集与预处理 如今,社会中各个机构、部门、公司、团体等正在实时不断地产生大量的信息,这些信息需要以简单的方式进行处理,同时又要十分准确且能迅速满足各种类型的数据(信息)需求者。这给我们带来了许多挑战,第一个挑战就是在大量的数据中收集需要的数据,下面介绍常用的大数据采集工具。 of 42 4 2.1.1概述 2.1大数据采集架构 第二章 数据采集与预处理 of 42 5 2.1.2 常用大数据采集工具 数据采集最传统的方式是企业自己的生产系统产生的数据,除上述生产系统中的数据外,企业的信息系统还充斥着大量的用户行为数据、日志式的活动数据、事件信息等,越来越多的企业通过架设日志采集系统来保存这些数据,希望通过这些数据获取其商业或社会价值。 2.1大数据采集架构 第二章 数据采集与预处理 of 42 6 在Flume中,外部输入称为Source(源),系统输出称为Sink(接收端)。Channel(通道)把Source和Sink链接在一起。 Apache Chukwa项目与Flume有些相类似,Chukwa继承了Hadoop的伸缩性和鲁棒性。也内置一个功能强大的工具箱,用于显示系统监控和分析结果。 互联网时代,网络爬虫也是许多企业获取数据的一种方式。Nutch就是网络爬虫中的娇娇者,Nutch是Apache旗下的开源项目,存在已经超过10年,拥有大量的忠实用户。 Flume体系架构 2.1大数据采集架构 第二章 数据采集与预处理 of 42 7 2.1.3 Apache Kafka数据采集 Apache Kafka被设计成能够高效地处理大量实时数据,其特点是快速的、可扩展的、分布式的,分区的和可复制的。Kafka是用Scala语言编写的,虽然置身于Java阵营,但其并不遵循JMS规范。 Topics(话题):消息的分类名。 Producers(消息发布者):能够发布消息到Topics的进程。 Consumers(消息接收者):可以从Topics接收消息的进程。 Broker(代理):组成Kafka集群的单个节点。 基本Kafka集群的工作流程 2.1大数据采集架构 第二章 数据采集与预处理 of 42 8 1、Topics Topics是消息的分类名(或Feed的名称)。Kafka集群或Broker为每一个Topic都会维护一个分区日志。每一个分区日志是有序的消息序列,消息是连续追加到分区日志上,并且这些消息是不可更改的。 2、日志区分 一个Topic可以有多个分区,这些分区可以作为并行处理的单元,从而使Kafka有能力高效地处理大量数据。 Topics与日志分析 2.1大数据采集架构 第二章 数据采集与预处理 of 42 9 3、Producers Producers是向它们选择的主题发布数据。生产者可以选择分配某个主题到哪个分区上。这可以通过使用循环的方式或通过任何其他的语义分函数来实现。 4、Consumers Kafka提供一种单独的消费者抽象,此抽象具有两种模式的特征消费组:Queuing 和Publish-Subscribe。 5、Apache Kafka的安装及使用 因为Kafka是处理网络上请求,所以,应该为其创建一个专用的用户,这将便于对Kafka相关服务的管理,减少对服务器上其他服务的影响。 2.1大数据采集架构 第二章 数据采集与预处理 of 42 10 使用useradd命令来创建一个Kafka用户:  $sudo useradd kafka –m 使用passwd 命令来设置其密码: $sudo passwd kafaka 接下来把kafaka用户添加到sudo管理组,以便kafaka用户具有安装Apache Kafka依赖库的权限。这里使用adduser命令来进行添加: $sudo adduser kafka sudo 这时就可以使用kafka账户了。 切换用户可以使用su命令: $su - kafka 在Apache Kafka安装所依赖的软件包前,最好更新一下apt管理程序的软件列表: $sudo apt-get update Apache Kafka需要Java运行环境,这里使用apt-get命令安装default-jre包,然后安装Java运行环境: $sudo apt-get install default-jre 通过下面的命令测试一下Java运行环境是否安装成功,并查看Java的版本信息: $java -v

文档评论(0)

nuvem + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档