大数据及MapReduce编程模型94.ppt

唐卓 博士 Hust_tz@126.com 湖南大学信息科学与工程学院 2014年 8 月 大数据及其并行编程模型概述 主 要 内 容 一、大数据概述 二、应对大数据的系统思维 三、MapReduce 并行编程详解 2 注:本课件前30页PPT来源于国防科大 李东升教授:“大数据时代的挑战和探索” 互联网应用数据急剧增长 互联网用户数量巨大,日益活跃 • 微博、论坛、电子商务网站等 • 互联网上的用户生成数据(User Generated Content, UGC) 淘宝网每天新增数据40TB以上 百度每天处理10PB量级的数据, 总数据量达1000PB 应用背景 注:本课件前30页PPT来源于国防科大 李东升教授:“大数据时代的挑战和探索” 一、大数据概述 • 随着信息化的推进,国民经济、国家安全 等领域的数据不断增长 物联网、移动通信电话、手机短信、语音数据 遥感、公共安全、医疗、交通、情报等很多领域 • 高分辨率卫星(影像)、城市监控摄像头(视频)、… • 据报道,武汉监控摄像头已超过25万个,如采用1080P高清摄 像头(一天产生数据量40GB以上),整个城市每天新增监控 数据10PB以上 应用背景 • 科学实验数据规模巨大,增长迅猛 生物工程 气候监测 高能物理 天文观测 生态环境 …. 气候研究 华大基因测序目 前每天产生数据 约15TB,一年超 过5PB 一 欧洲CERN对撞 机每年产生的数 据量超过15 PB 基因测序 应用背景 全 球 数 据 量 • IDC报告预测:未来 十年,全球数据量继 续迅速增长 Amount of digital information created and replicated in a year – – – – 年均增长率超过40% 2009年0.8ZB 2020年35ZB 1 ZB ~ 106PB 月球 容量4GB的DVD光 用容量4GB的DVD光盘存储,DVD可从地球排至月球 G-T-P-E-Z-Y • 维基(Wiki)百科的定义 Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools • IDC的定义 Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis. 什么是大数据 大数据是超大、复杂的数据集,现有的数据库管理技术难以应对 大数据技术描述了新一代的技术和架构,通过高速的数据获取、发现和分析技术,以经济的方式从各种超大规模的数据中提取价值 一、大数据概述 • Volume:规模大 从PB级到ZB级 1 ZB ~ 106* PB • Variety:多样化 结构化、非结构化 文本、图像、视频等 • Velocity:变化快 批处理/离线数据、流/实时/在线数据等 • Value/ Veracity:价值稀疏 /数据质量 噪音和无用信息很多 一、大数据概述 大数据的特点 • 大数据技术对经济社会和科研都在产生重 要影响 – 互联网产业、电子商务推荐、日常生活 大数据的影响 季节性流感是一个重要的公共卫生问题:WHO估计, 全球每年25万至50万人因此死亡 及时监测到疾病的传播情况,尽快采取应对措施 2008年,Google通过处理网络搜索日志中的几千亿查询数据,训练建立流感疾病监测的数学模型,比美国病控制和预防中心提前1-2周给出流感的传播情况 论文发表在Nature (2009.2): Detecting Influenza Epidemics using Search Engine Query Data • 大数据技术对经济社会和科研都在产生重 要影响 – 科学研究 三种科研模式:理论、实验、计算 第四模式:数据密集型的科学发现 图灵奖获得者Jim Gray 2007年提出 专辑:Na

文档评论(0)

1亿VIP精品文档

相关文档