网站大量收购独家精品文档,联系QQ:2885784924

互联网+创业大数据技术2.3.2几种主流大数据技术.pptx

互联网+创业大数据技术2.3.2几种主流大数据技术.pptx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国家级创新创业教育教学资源库互联网+创业国家级创新创业教育教学资源库02几种主流大数据技术几种主流大数据技术当前,大数据已经渗透到每个行业和领域,成为重要的生产因素。在大数据环境下,数据是海量的,且成爆发式增长。数据类型复杂多样,除结构化数据外,还有大量半结构化和非结构化数据。大数据应用需求也很复杂,包括复杂多表关联查询、即席查询、离线数据批量处理等。传统事务型数据库是针对事务型处理设计的,采用行存储和Shared Disk架构,硬件方面采用“小型机+磁盘阵列”的配置。而面对大数据的分析处理型应用,传统的数据库在处理海量数据方面表现出明显的不足。针对传统数据库处理大数据瓶颈以及大数据的应用需求,衍生了多项大数据技术。几种主流大数据技术1.MPP数据库MPP数据库是新型数据库类型,采用Shared Nothing+MPP架构,通过列存储、高效压缩、粗粒度只能索引等多项大数据处理技术,结合MPP架构高效的分布式计算模式,完成对海量高密度结构化数据的分析类应用的支撑,运行环境多为低成本的PC Server,具有高性能和高扩展性的特点。MPP数据库擅长处理高价值密度的结构化数据,适合大规模复杂分析,海量数据查询、关联等场景,如数据仓库、数据集市、企业级报表、统计分析、即席查询、多维分析等,广泛应用到行业数据仓库和各类结构化数据分析领域。MPP数据库可以有效支撑PB级别的结构化数据处理,它具有如下特点具备ACID特性:满足原子性、一致性等要求支持关系模型:基于关系模型设计使用SQL引擎:标准接口,开发效率高,应用迁移方便基于Shared Nothing架构:可以横向扩展数百个节点,支撑PB级别的数据处理存储结构化数据,有明显的星型和雪花模型结构:便于进行OLAP分析、多维分析可基于开放的X86架构服务器部署:平台建设成本低几种主流大数据技术2.Hadoop基于Hadoop生态的大数据技术主要针对非结构化数据的存储和计算、实时流处理等传统关系型数据库较难处理的数据和场景。Hadoop依托开源社区的优势以及相关技术的不断进步和迭代更新,可支撑对于非结构、半结构化数据的处理,复杂的ETl流程,复杂的数据挖掘和计算模型。Hadoop技术采取键值对存储的方式、简单低耦合方式存储数据;基于HDFS的分布式文件系统,具有明显的存储优势,可以存储海量的结构化、半结构化、非结构化数据;拥有灵活的MR/RDD编程模式;可基于开放的X86架构服务器部署,扩容成本低;可扩展到上千节点。对于大规模的复杂分析、即席查询、多表复杂关联等场景,由MPP数据库处理;而非结构化数据处理、流处理以及大规模批量复杂作业,则由Hadoop架构负责。几种主流大数据技术3.Storm随着大数据业务的快速增长,针对大规模数据处理的实时计算变成了一种业务上的需求,缺少“实时的Hadoop系统”已经成为整个大数据生态系统中的一个大问题。Strom正是在这样的需求背景下出现的,并很好的满足了这一需求。Storm是一个自由的开源、分布式的实时计算系统,它可以快速可靠地处理庞大的数据流。Storm很简单,支持多种编程语言,使用灵活。它为分布式实时计算提供一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。Storm也可被用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户,它可以方便地在一个计算机集群中编写与扩展复杂的实时计算。Storm处理速度很快,在一个小集群中,每秒可以处理数以百万计的消息。许多知名企业,诸如淘宝、支付宝、阿里巴巴、高朋(Groupon)、乐元素、精硕科技(Admaster)等都基于它做开发。几种主流大数据技术4.Apache Drill为帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为“Drill”的开源项目。Drill已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。该项目将会创建出开源版本的Google Dremel Hadoop工具(谷歌使用该工具为Hadoop数据分析工具的互联网应用提速),而Drill将有助于Hadoop用户实现更快速查询系统的数据对接功能。非常感谢您的观看主讲人:彭友时间:2018年12月

文档评论(0)

WanDocx + 关注
实名认证
内容提供者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档