大数据基本概念和研究热点(p).ppt

  1. 1、本文档共102页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据基本概念和研究热点(p).ppt

RDBMS 和MapReduce 技术的竞争与相互渗透 MapReduce 技术在广泛用于搜索相关的数据分析工作之后,随着其性能的不断提升和应用领域的扩展,迅速成为RDBMS 的年轻的竞争者,两者的竞争也促进了其相互学习和渗透 * RDBMS 和MapReduce 技术的竞争与相互渗透 RDBMS 与MapReduce 的特点比较 * RDBMS 和MapReduce 技术的竞争与相互渗透 MIT 的研究人员借鉴MapReduce 的容错思想,试图在Shared Nothing 架构的并行数据库系统上实现更高的容错性能,取得良好的容错和负载均衡效果. * RDBMS 和MapReduce 技术的竞争与相互渗透 HadoopDB是试图混合MapReduce 和RDBMS 技术的一项重要工作 在HadoopDB 中,系统清晰地分成两层,上层使用Hadoop 进行任务的分解和调度,下层用RDBMS(Postgresql)进行数据的查询和处理 * RDBMS 和MapReduce 技术的竞争与相互渗透 HadoopDB的创新之处是: 试图利用Hadoop 的任务调度机制提高系统的扩展性和容错性,以解决大数据分析的横向扩展问题; 利用RDBMS 实现数据存储和查询处理,以解决性能问题.在其性能实验中,HadoopDB 的性能仍然落后于关系数据库系统. * RDBMS 和MapReduce 技术的竞争与相互渗透 Yale 大学Abadi 领导的小组正在使用包括列存储、持续装载和分析等技术,以改进HadoopDB 的性能 * RDBMS 和MapReduce 技术的竞争与相互渗透 Greenplum(已被EMC收购)和Aster Data(已被TERADATA收购)是两家新兴的面向大数据分析的公司,他们采用的策略是在MPP 架构的并行数据库里内置地支持MapReduce,其核心引擎同时作为MapReduce 作业的执行引擎 * RDBMS 和MapReduce 技术的竞争与相互渗透 两家公司正在进行一项重要的工作,即对分析函数进行MapReduce 风格的并行化.通过并行化,数据分析函数的执行性能大幅提升. 通过引进MapReduce 计算模型的思想,对传统的并行数据库进行改造,两家公司的MPP 架构的并行数据库系统可以轻松扩展到几百个节点的规模. * RDBMS 和MapReduce 技术的竞争与相互渗透 Aster Data 更是在2010 年中发布了超过30 个的分析软件包,提供上千个可以定制的分析函数,这些函数都将以并行的方式运行在MPP 平台上,从而在性能上大大超越传统的RDBMS 用户自定义函数(UDF). * RDBMS 和MapReduce 技术的竞争与相互渗透 随着MapReduce 技术性能的提升、应用领域的扩展,关系数据管理技术和MapReduce 技术的争论一直持续着. * RDBMS 和MapReduce 技术的竞争与相互渗透 2010 年初,ACM 通讯杂志同时向Stonebraker以及Google 的Dean 进行约稿 Dean 指出,MapReduce是进行大规模数据分析处理的灵活而有效的工具; 而Stonebraker 则从最初的对MapReduce 技术的彻底否定,转为肯定MapReduce 的良好扩展性,并且指出,MapReduce 非常适合做ETL 这样的工作 * RDBMS 和MapReduce 技术的竞争与相互渗透 目前,越来越多的数据库研究人员(包括Stonebraker 在内)逐渐意识到,MapReduce 和关系数据库可以互相学习,并且走向集成 MapReduce 可以从RDBMS 学习查询优化、Schema 支持、外围工具(ETL 工具、可视化工具等)支持等 而RDBMS 可以从MapReduce 学习得到高度的扩展性和容错性、快速装载、易于使用等特点. * RDBMS 和MapReduce 技术的竞争与相互渗透 除了Greenplum,Aster Data 等新兴公司以外,Oracle,Teradata,IBM,Vertica 等传统数据库厂商也致力于MapReduce 和RDBMS 的集成 它们所采用的策略基本类似,即在RDBMS 引擎内支持MapReduce 作业的运行. * MapReduce 并行编程模型 MapReduce 技术是非关系数据管理和分析技术的典型代表. 在Google 公司内部,通过大规模集群和MapReduce 软件,每天有超过20PB 的数据得到处理,每个月处理的数据量超过400PB * MapReduce 并行编程模型 在数据分析的基础上,Google 提供了围绕互联网搜索的一系

文档评论(0)

我的文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档