大数据处理技术简介.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据处理技术简介 一、大数据背景1.定义2.数据的来源 二、大数据处理实现技术1.分布式储存系统(GFS / HDFS)2.分布式计算模型(MapReduce) 三、大数据开源软件Hadoop简介1.Hadoop 简介2.实例演示目 录 一、大数据背景大数据背景 —— 定义我们正处在信息爆炸的年代2000年数字数据只占全球数据量的1/42007年所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google 单日数据处理量超过 24 PBFacebook 单日照片更新量超过 1千万张淘宝网单日数据产生量超过 5万 GB大数据背景 —— 定义大数据定义 “大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。大数据背景 —— 定义数据的分类结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表半结构化数据:自描述,数据结构和内容混杂在一起的数据。例如: XML、HTML等。非结构化数据:除去以上两种类型例如:音视频、图片等。大数据背景 —— 数据的来源2000年以后非结构化数据占绝大部分大数据背景 —— 数据的来源从非结构化数据到结构化数据视频、音频识别技术等大数据背景 —— 数据的来源网页爬虫语音识别等视频识别大数据背景 —— 数据的来源传统关系数据库,如:Oracle、MYSQL无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效 !如何解决?大数据处理技术的解决办法:存成文件(File System)大数据背景 —— 数据的来源某搜索引擎搜索日志 二、大数据处理实现技术大数据处理实现技术 —— 分布式储存系统GFS / HDFS大数据处理技术面对的第一个问题 如何高效存储大规模文件?大数据处理实现技术 —— 分布式储存系统GFS / HDFS数据读取问题2.5小时 1 T100M/SOH NO !!! 大数据处理实现技术 —— 分布式储存系统GFS / HDFS谷歌文件系统(GFS)大数据处理实现技术 —— 分布式储存系统GFS / HDFS谷歌文件系统(GFS)解决方案分而治之大数据处理实现技术 —— 分布式储存系统GFS / HDFS10G10G10G10G10G……..100M/S1分30秒大数据处理实现技术 —— 分布式储存系统GFS / HDFS大数据处理技术面对的第二个问题可靠性问题 99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76% 大数据处理实现技术 —— 分布式储存系统GFS / HDFS谷歌解决方案备份一份数据至少做三个备份10G10G10G10G10G10G……10G10G10G10G10G10G云( Cloud )……10G10G10G10G10G10G储存节点……心跳(HeartBeat )Master(主管)Secondary master(副主管)Master作用:储存元数据(数据位置信息)储存节点的日常维护读取数据读取数据数据位置信息读取元数据Client(用户程序)大数据处理实现技术 —— 分布式储存系统GFS / HDFSGoogle File System架构大数据处理实现技术 —— 分布式计算模型 MapReduce大数据处理技术面对的第三个问题数据运算问题大数据处理实现技术 —— 分布式储存系统GFS / HDFS谷歌解决方案分布式计算(并行计算)大数据处理实现技术 —— 分布式计算模型 MapReduce谷歌提出 Map / Reduce 模型大数据处理实现技术 —— 分布式计算模型 MapReduceMap函数:接受一个键值对(key-value pair),产生一组中间键值对。map函数将中间键值对里键相同的值传递给Reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)大数据处理实现技术 —— 分布式计算模型 MapReduceKey-Value(键-值)模型 键(Key):键必须是唯一的,而值并不一定是唯一的每个值必须与键关联,但键可以没有值必须对键进行明确定义。他决定了计数是否区分大小写(键由Hash值唯一确定)。键值对举例 :通讯录中的姓名(Key)和联系方式(Value)计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value)年份(Key)—温度(value)SUCCESSTHANK YOU可编辑大数据处理实现技术 —— 分布式计算模型 MapReduce气象站气象数据的处理(找出

文档评论(0)

iuad + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档