- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术创新,变革未来
大数据技术简介
内容
Hadoop的起源与发展
Hadoop是什么
主流大数据技术
Hadoop应用现状
Hadoop伪分布式环境搭建
Hadoop的起源与发展
Hadoop的思想之源——Google
面对的数据存储和计算难题
大量的网页怎么存储
搜索算法
Google
GFS
MapReduce
BigTable
Hadoop的起源与发展
Doug Cutting
Hadoop是什么
Hadoop是一个开源框架,可编写和运行分布式
应用处理大规模数据
Hadoop框架的核心是HDFS、MapReduce、
Yarn
HDFS 是分布式文件系统,提供海量数据的存储
MapReduce 是分布式数据处理模型,提供数据
计算
Yarn是资源管理和调度工具
主流大数据技术
主流大数据技术
Hadoop已经成长为一个庞大的生态体系
只要和海量数据相关的领域,有 Hadoop 身影
MapReduce是把一个大数据集上的任务分解,并
在并行的多个节点中处理
Hive在Hadoop中扮演数据仓库的角色,Hive使
用类SQL语法进行数据操作
HBase是面向列的数据库,运行在HDFS之上,
HBase以BigTable为蓝本,可以快速在数十亿行数
据中随机存取数据
主流大数据技术
Storm是流式计算
Spark是内存计算、流式计算、图计算
Sqoop是从关系数据库导入数据到Hadoop,并可
直接导入到HDFS或Hive
Flume是将流数据或日志数据导入HDFS
ZooKeeper协调集群成员
Oozie提供管理工作流程和依赖的功能,将多个
MapReduce作业连接到一起,定制彼此间依赖
Ambari可对Hadoop集群提供监控、部署、配置
、升级和管理等核心功能
大数据技术特点
针对大规模数据处理的需求一直存在,受限于系统
的处理能力和费用,一直没有得到大规模使用
健壮:在一般商用硬件上运行,必须考虑硬件会
频繁失效,可以从容地处理大多数故障。
可扩展:通过增加集群节点,可以线性地扩展以
处理更大的数据集。
简单方便:允许用户快速编写高效的并行代码。
大数据技术能做什么
大数据技术的简单方便、可扩展性和健壮性让其在
大数据处理方面占尽优势,其主要应用场景有:
搜索引擎,为大规模的网页快速建立索引。
大数据存储,利用分布式存储能力,建立数据备
份、数据仓库等。
大数据处理,利用分布式处理能力,例如数据挖
掘、数据分析等。
Hadoop的应用现状
Hadoop的应用现状
Yahoo :用户行为分析、支持广告系统、支持
Web搜索、反垃圾邮件系统、个性化推荐
Facebook :存储内部日志与多维数据,并以此
做分析和机器学习
百度:日志分析平台、数据仓库、数据挖掘与分
析、推荐系统
阿里巴巴:广告系统、推荐引擎、搜索排行、历
史订单
Hadoop伪分布式环境搭建 (1)
Hadoop发行版选择:
Apache
CDH
HDP
Hadoop版本选择:
0.2X
1.X
2.X (2.7.3)
我们的选择:CDH Hadoop 2.6.0
Hadoop伪分布式环境搭建 (2)
Hadoop安装模式:
单机模式:
占用资源最少的模式
完全运行在本地
不使用Hadoop文件系统
不加载任何守护进程
伪分布模式:
“单节点集群”模式
所有的守护进程都运行在同一台机子上
代码调试
可以查看HDFS的输入/输出,以及各守护进程
全分布模式:真正的分布式集群配置,用于生产环境
Hadoop伪分布式环境搭建 (3)
Linux环境,我们使用的是centos6.5
关闭防火墙,因为它会妨碍hadoop集群间相互通信
sudo chkconfig iptables off
sudo
您可能关注的文档
最近下载
- 一种农业用大蒜分瓣机.pdf VIP
- 四川省水利水电建筑工程预算定额2007(全套电子表格版本).pdf VIP
- 郑州科技学院《高等数学A》2025-2026学年期末考试试卷(A)卷.docx VIP
- 一例妊娠合并易栓症产妇的个案护理.pptx VIP
- 妊娠合并易栓症产妇的护理.pptx VIP
- 如何恢复已被删除回款信息.doc VIP
- 广东江门幼儿师范高等专科学校2025-2026学年《马克思主义基本原理I》期末试题(B).docx VIP
- 化学反应工程_(郭锴_着)_课后答案.pdf VIP
- 国企工程项目管理制度汇编.docx VIP
- 中南大学总降压变电所及高压配电系统设计电气工程课程设计报告.docx VIP
原创力文档


文档评论(0)