- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术如何应用亍
传统信息系统
提纲
大数据技术研究背景和问题
开源软件Apache Hadoop
大数据处理系统关键技术 大数据技术从互联网走向传统应用
背景:大规模数据计算
通信、网络、存储、传感器等电子信息技术飞速发展导致
数据规模极大增加 – Big Data
传统的存储并处理这些数据的技术手段遇到瓶颈
Search Engine
Data Warehousing
Log Processing/User
Behavior Analyzing
Processing 100TB datasets
Online/Realtime/Stream
ing Data Analysis
数据 为王
One node
Scanning@50MB/s = 35,000 min
1000 node
Scanning@50MB/s=35 min
背景 – 大数据的大问题
2020年:
数据量将达到35ZB,较2009年增大44倍
来源:IDC Digital Universe Study, May 2010
2020年:
60%以上的创造数据将因无法存储而丢失。
• Facebook用户每天上传3亿张照片,超过 500TB的数据增长量,100PB单集群存储 容量
• Google索引的在线数据2002年是5EB,到 2009年增长到280EB
• 淘宝网注册用户达到3.7亿,在线商品数达
到9亿,14PB海量数据存储
数据爆炸对数据存储不 处理效能提出了挑战!
背景 – 大数据的大问题
2020年:
数据量将达到35ZB,较2009年增大44倍
来源:IDC Digital Universe Study, May 2010
2020年:
60%以上的创造数据将因无法存储而丢失。
• Facebook用户每天上传3亿张照片,超过 500TB的数据增长量,100PB单集群存储 容量
• Google索引的在线数据2002年是5EB,到 2009年增长到280EB
• 淘宝网注册用户达到3.7亿,在线商品数达
到9亿,14PB海量数据存储
数据爆炸对数据存储不 处理效能提出了挑战!
• 高速发展的数据型互联网企业需要连续的系统扩展能力
数据快速增长不数据中心扩容周期缓慢的矛盾
• 如何维持低成本曲线和高性能曲线是现实问题
数据业务深度的丌断加强和数据处理性能现状的矛盾
背景:解决大数据问题的思路
背景:解决大数据问题的思路
海量数据存储
海量数据计算
提纲
大数据研究背景和问题
开源软件Apache Hadoop
大数据处理系统关键技术 大数据技术从互联网走向传统应用
Hadoop
Apache Nutch, 2002
NDFS + MapReduce, 2004
Hadoop, 2006
Apache Hadoop, 2008
/
Book:
/catalog/9780596521998/index.html
Clone of Google’s GFS and Written in Java
MapReduce • Does work with other languages
Can process large scale Web pages Runs on
Linux, Windows and more
Commodity hardware with high
failure rate
Doug Cutting, Apache软件基 金会主席
Hadoop is the most successful open source software after Linux.
Hadoop 组成部分
Hadoop is the most successful open source software after Linux.
MapReduce
HDFS
HBase
Hive
Hadoop 组成部分
HDFS
ftware after Linux.
apReduce
most successful open source so
M
HBase
Hive
Hadoop is the
Hadoop 组成部分
Hadoop HDFS体系结构
规模:10K nodes, 100 million files, 10 PB
特性:适合数据批处理;最大化吞吐率;允
许计算向数据迁移
优化:数据块副本、数据块放置策略、
缓存策略等
Sanjay Ghemawat, et. al., The Google File System, SOSP’03
Hadoop MapReduce处理流程
Dean Ghemawat: “MapReduce: Simplified Data Processing on Large Clusters”,
您可能关注的文档
最近下载
- 迅达3300AP电气原理图(中文精简版).pdf VIP
- (精品)《雨人》中英文台词剧本完整版.docx VIP
- 2025-2026学年初中美术八年级上册(2024)岭南版(2024)教学设计合集.docx
- 上市公司应对证券民事索赔100问.pdf VIP
- 【继续教育】水质PH(每日一练).pdf VIP
- Lenovo联想 服务器 ThinkServer TS560 说明书.pdf
- Q/GDW 364-2009《单相智能电能表技术规范》及编制说明.doc VIP
- 社会保障学 高教版 第16章--扶贫开发.ppt VIP
- 《2和5的倍数的特征》省公开课一等奖全国示范课微课金奖PPT课件.pptx VIP
- 甜梦口服液与丁螺环酮治疗广泛性焦虑症的疗效对比.PDF VIP
文档评论(0)