- 9
- 0
- 约3.63千字
- 约 22页
- 2021-10-13 发布于重庆
- 举报
2015.6.15
基于Hadoop的大数据处理关键技术综述
Content
定义、特点
大数据对系统的需求、大数据和云计算的关系
大数据市场分析
大数据处理的技术关键
1
2
Hadoop原理、优点
Hadoop体系架构
Hadoop核心设计:MapReduce、HDFS
1
定义
为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术
特点
大数据对系统的需求
大数据和云计算的关系
High performance –高并发读写的需求
高并发、实时动态获取和更新数据
Huge Storage –海量数据的高效率存储和访问的需求
类似SNS网站,海量用户信息的高效率实时存储和查询
High Scalability High Availability –高可扩展性和高可用性的需求
需要拥有快速横向扩展能力、提供7*24小时不间断服务
云计算改变了IT,而大数据则改变了业务
云计算是大数据的IT基础,大数据须有云计算作为基础架构,才能高效运行
通过大数据的业务需求,为云计算的落地找到了实际应用
大数据市场分析
2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。
2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。
政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。
由于各个行业都存在大数据应用需求,潜在市场空间非常可观。
大数据处理的技术关键
分析技术:
数据处理:自然语言处理技术;
统计和分析:地域占比,文本情感分析,A/B test,top N排行榜;
数据挖掘:建模,聚类,分类,排名;
模型预测:预测模型,机器学习,建模仿真。
存储技术:
结构化数据:海量数据查询、统计、更新等操作效率低
非结构化数据:图片、视频、word、pdf、ppt等文件存储,不利于检索,存储和查询
半结构化数据:转换为结构化数据或者按照非结构化存储。
大数据技术:
数据采集:ETL工具;
数据存取:关系数据库,NoSQL,NewSQL,等
基础架构支持:云存储,分布式文件系统等;
计算结果展现:云计算,标签云,关系图等。
解决方案:
Hadoop(MapReduce技术)、MongoDB、流计算(twitter的strom和yahoo!的S4)
大数据主要应用技术——Hadoop
2
Hadoop最先是由Apache公司在2005年引入的,起源于google开发的MapReduce和Google File System(GFS)项目。
Hadoop作为新一代的架构和技术,因为有利于并行分布处理 “大数据”而备受重视。
Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成 。
Hadoop原理
Hadoop原理
假设系统每秒处理4000个文件
处理4千万个文件
=
10000秒
约为2.7小时
优点
可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。
经济:框架可以运行在任何普通的PC上。
可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。
不适合
存储小文件 (不建议)
大量的随机读(不建议)
对文件的修改(不支持)应用模式为:write-once-read-many存取模式
Hadoop体系架构
MapReduce
HBase
Pig
ChuKwa
Hive
Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口
hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行
Chukwa是基于Hadoop的集群监控系统,由yahoo贡献
ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态
HBase是一个开源的,基于列存储模型的分布式数据库
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算
HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序
M
您可能关注的文档
最近下载
- 2026年春季西师大版(2024)小学数学三年级下册教学计划含进度表.docx VIP
- 2025年黑龙江职业学院单招语文测试题库真题题库.docx VIP
- 2024年度最新隐患排查治理培训教材.pptx
- 一年级数学上册看图列式综合练习题(一图四式,每日一练,共13套题).pdf VIP
- GEM BOX I 使用说明书中文 Manual_ODM_CN_V01 2019 6 11.pdf VIP
- 2026年树立和践行正确政绩观重点纠治十种偏差问题对照查摆清单60条(供参考).docx VIP
- 皮肤科(规培)练习题库+参考答案.docx VIP
- api1104中文版(内部资料)新.pdf VIP
- 同级生2游戏攻略.doc VIP
- 新人美版美术一年级下册第1课《春天在哪里》课件.pptx
原创力文档

文档评论(0)