- 1、本文档共149页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 大数据技术基础知识;本章目录;;面对数据量更大、数据类型更多的数据处理需求,传统的数据处理平台无法进行高效地处理。
以MapReduce和HDFS作为核心组件的Hadoop生态系统提供了一系列专为大数据解决方案的开发、部署和支持而创建的工具和技术。 ;2.1.1 利用HDFS存储数据;2.1.1 利用HDFS存储数据;;;2.1.2 利用MapReduce处理数据;2.1.3 利用Hadoop YARN管理资源和应用;2.1.4 利用Hbase存储数据;2.1.5 利用Hive查询大型数据库;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.6 Spark简介;2.1.7 Kafka简介;Kafka的主要特点
①Kafka可以同时为消息的发布与订阅提供足够高的吞吐量。Kafka每秒可以产生约25万条消息(约50 MB),每秒处理55万条消息(约110 MB)。
②Kafka可对数据进行持久化操作。Kafka将消息持久化到磁盘中后可用于批量消费,例如ETL,以及实时应用程序。将数据持久化到硬盘以及replication还可以防止数据丢失。
③Kafka是分布式的,因此具有更好的扩展性。所有的producer、broker和consumer都会有多个,均为分布式的。在扩展机器时无需停机即可操作。
④消息被处理的状态由consumer端维护,而非server端。当任务失败时能自动平衡,并且Kafka可以同时支持online和offline的场景。
;Kafka的架构
①Topic:特指Kafka处理的消息源(feeds of messages)的不同分类。
②Partition:Topic在物理上的分组,一个topic可以被分为多个partition,每个partition都是一个有序的队列,即partition中的每条消息都会被分配一个有序的id(offset)。
③Message:消息,通信的基本单位,每个producer可以向一个topic发布消息。
④Producer:发送消息的过程。消息和数据生产者向Kafka的一个topic发布消息的过程叫做producer。
⑤Consumer:订阅消息的过程。消息和数据消费者订阅topics并处理其发布的消息的过程叫做consumer。
⑥Broker:缓存代理,Kafka集群中的一台或多台服务器统称为broker。
;Kafka的应用场景
Kafka的主要应用场景有如下几个:
①消息队列。由于Kafka的吞吐量和容错性比大多数的消息系统相比更好,因此Kafka成为了一个很好的大规模消息处???应用的解决方案。
②行为跟踪。Kafka的另一个应用场景是跟踪用户行为,如:浏览页面、搜索等,以发布-订阅的模式实时记录到对应的topic里。
③元信息监控。Kafka可以对操作进行监控,作为监控模块来记录操作信息,即为运维性质的数据监控。
④日志收集。有诸多开源产品都可以进行日志收集,如:Scribe、Apache Flume。Kafka可以用来代替日志聚合(log aggregation)的功能。;Kafka的应用场景
Kafka的主要应用场景有如下几个:
⑤流处理。Kafka进行流处理的应用场景较多,流处理即收集并保存流数据,以提供给之后对接的Storm或其他流式计算框架进行处理。
⑥事件源。事件源是一种应用程序设计的方式,该方式的状态转移被记录为按时间顺序排序的时间序列。因为Kafka可以对大量的日志数据进行存储,因此适合此类应用。
⑦持久性日志。Kafka可以为外部的持久性日志的分布式系统提供服务。这种日志可以在节点间备份数据,并为故障节点数据回复提供重新同步的机制。
;;Linux是一个提供了完整的底层硬件控制与资源管理架构的操作系统,支持多用户、多任务、多线程和多CPU。Linux系统由如下几个部分组成:Linux内核(Linus 团队管理)、Shell(用户与内核交互的接口)、文件系统(ext3、ext4等)、第三方应用软件。
Linux是开源免费的,用户可以根据自己的需求修改Linux内核程序,并将其移植到各种计算机设备中使用。;2.2 Linux简介;Linux系统目录结构
在Windows下会有基本的目录结构,Linux下也不例外,同样有基本的目录结构,如图:
;Linux的文件权限
Linux是一种支持多用户的操作系统。为了保证系统的安全性,Linux对用户访问文件的权限进行了区分。从文件角度来讲,每一个文件都有一个拥有者,拥有
您可能关注的文档
- 创业机会完整版.ppt
- 我看牛城·百善骈臻作文.docx
- 英语中连读和略读规则(实用版).docx
- 廉洁警示教育片观后感(通用12篇).docx
- 误差资料完整版.doc
- 人教版数学六年级上册 第一单元 第1课时 分数乘整数-1.pptx
- 人教版数学六年级下册 第二单元 第3课时 税率.pptx
- 人教版数学六年级上册 第四单元 第2课时 比的基本性质.pptx
- 人教版数学六年级上册 第二单元 第2课时 标出物体的位置.pptx
- 国家体育场(鸟巢)装修施工组织设计图片.doc
- 人教版数学六年级上册 第一单元 第5课时 分数乘小数.pptx
- 人教版数学六年级上册 第四单元 第3课时 比的应用.pptx
- 人教版数学六年级上册 第五单元 第5课时 圆的面积-2.pptx
- 人教版数学六年级上册 第一单元 第7课时 解决问题-1.pptx
- 人教版数学六年级下册 第二单元 第4课时 利率.pptx
- 人教版数学六年级上册 第一单元 第8课时 解决问题-2.pptx
- 人教版数学六年级下册 第五单元 第2课时 鸽巢问题的一般形式.pptx
- 人教版数学六年级下册 第四单元 整理和复习.pptx
- 人教版数学六年级上册 第一单元 第3课时 分数乘分数-1.pptx
- 人教版数学六年级下册 第六单元复习第2课时 可能性.pptx
文档评论(0)