OBDA-Overview-v102.pptxVIP

  • 4
  • 0
  • 约4.55千字
  • 约 24页
  • 2016-12-25 发布于重庆
  • 举报
Oracle Big Data Solution大数据有大智慧贺辉群 David.He@Principal Sales ConsultantIndustry Solution Manager for BigData Internet全球数据增长计数器截至2011/12/15大数据特点 - 4个V 巨大的数据量 Volume集中储存/集中计算已经无法处理巨大的数据量新浪微博用户数2.5亿+,高峰每天几亿条仅一个百万家庭级别城市的智能电网每月可产生数十亿的智能电表数据2015年全球移动终端产生的数据量将达到6300PB非结构化数据无固定格式变化多 Variety文本/图片/视频/文档等并发极高,增长速度很快 Velocity用户基数庞大/设备数量众多/实时海量/数据指数级别增长充分利用消息价值 Value单条数据本身并无太多价值,但庞大的数据量累积并隐藏了巨大的财富Volume, Variety, Veloctity, Value正是大数据的特点,具有4V特性的数据称为大数据。传统DW难以处理大数据大数据的4V特点: Volume, Variety, Veloctity, Value传统DW系统不适用于大数据的分析数据量过于庞大,集中存储/集中计算很难获得令人满意的效果绝大部分数据是垃圾,全部放入DW中是对资源的浪费传统DW在应对大数据的多样化格式上比较吃力需要革新性的技术手段海量数据“分而治之”------批量分布式并行计算Hadoop海量数据“灵活多变”------实时分布式高并发数据存取处理NoSQL海量数据“跨越鸿沟”------大数据超高速装载进数据库大数据处理和分析技术Big Data: Techniques and Technologies that Make Handling Data at Extreme Scale Economical. Brian Hopkins and Boris Evelson, Forrester Research, “Expand Your Digital Horizons with Big Data” (September 2011)架构变革 - 传统数据仓库 vs Big Data Moving central data to computing vs Computing distributed local data+大数据的建设 深入分析 敏捷开发 高可用 实时响应可预测的低延时高吞吐高交易灵活的数据结构高吞吐就地数据就绪多种数据源和数据结构 数据驱动 应用分析 实时高效 业务提升存储节点数据中心 A存储节点数据中心 A获取 --- Oracle NoSQL 数据库 键值对数据库动态数据模型高度可伸缩、高度可用 透明负载平衡基于 BerkeleyDB 而构建ApplicationApplicationNoSQLDB DriverNoSQLDB DriverNoSQL到底是什么?-- 不需要SQL的非关系数据库例: 我们要描述学生的所有信息?NoSQL数据库SQL+关系数据库(Oracle)学生1: 姓名:张三 地址: 北京,上海 爱好: 爱好1,爱好N学生2: 姓名:李四 地址:北京 爱好:爱好N……学生M: 姓名:王麻子 地址:广州 爱好:爱好1学号姓名地址爱好1爱好2爱好...爱好N001张三北京有无有002李四上海 无无有……00M王麻子广州有无无其实通常情况下,我们会设计学生基本信息表,爱好表,学生爱好对照表三张表;如果地址不止一个呢?还要设计地址表,学生地址对照表因此,共需要5张表来描述无模式限制,格式自由,灵活。适合非结构数据存储查询获取 --- Hadoop Distributed File System 冗余存储的分布式文件系统 可靠并高度可伸缩的数据存取能力 针对大数据量、低密度数据的经济高效文件系统数据块复制因子2组织 --- Hadoop 架构 管理/监视采用冗余存储的分布式文件系统Map/Reduce 编程范式高度可伸缩的数据处理能力针对大数据量、低密度数据的经济高效的模型MapReduce Hadoop 分布式文件系统 (HDFS)Hadoop到底是什么?--- 核心是Map/Reduce例: 我们要数图书馆中所有书名中含“Oracle”的数量,怎么数效率最高?你数1号书架,我数2号书架。我们人越多,数书就更快。这就是map。……MapN号书架三号书架二号书架一号书架最后我们到一起,把所有人的统计数加在一起。这就是Reduce。+Reduce…… 对海量非结构数据的这样一种分布式并行处理架构,就是Hadoop的实质,与我们熟悉的数据库技术不同Big Data的核心 – 分布式计算/超大数据集分布式海量数据存取和处理解决方案Map/Reduce框架

文档评论(0)

1亿VIP精品文档

相关文档