- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?
? ? ? ?
? ? ?
数据湖(Data Lake)前世今生解析(上)
? ? ? ?
?
?
?
?
?
?
? ? ?
? ? ?
? ? ?
?
?
?
EMC收购视频存储设备厂商Isilon Systems完善EMC在分布式Scale-Out架构NAS技术方面的不足,近几年isilon在媒资、大数据和HPC场景得到客户的一致认可,也在去年和另外一个产品线Povital Hadoop推出了数据湖解决方案,应对互联网浪潮下客户对半结构化和非结构化数据的处理、存储需求。
在讲数据湖之前,我们一起在回顾下数据库和数据仓库。数据库指在线交易数据系统、一般指OLTP事务处理,数据库中的数据也是进行了分类的;数据仓库一般指通过ETL工具抽取分类中的离线数据,主要用作进行后续分析、或进一步分类为数据集市。
数据湖
数据湖是指结构化和非结构化大数据系统,由于这些数据再初始很难定义其用途,所以在使用前很难将其有效分类,但是这些数据又可以被原地分析、计算和存储的系统。数据湖也改变了用户使用数据的方式,数据湖整合了结构化、非结构化数据的分析和存储,用户不必为海量不同的数据构建不同数据库、数据仓库,因为通过数据湖就可以完成或实现不同数据仓库的功能。未来数据湖作为一种云服务随时按需满足对不同数据的分析、处理和存储需求,数据湖本身也是通过云的方式来部署到虚拟机、物理环境或云上。
Isilon的数据湖基础
Scale out横向扩展能力提供了构建数据湖的关键能力,满足海量数据存储需要;同时isilon存储(HDFS)与计算(Hadoop)分开部署,满足计算按需扩展需求。
通过OneFS系统引擎提供丰富的软件特性如 SmartPool、SmartDedupe、多副本(EC)等实现数据流动、空间高效利用和数据可靠性;并实现和VMware虚拟化平台VAAI、VASA和SRM无缝集成,实现数据湖数据在虚拟和物理环境间进行高效数据流动。
支持丰富的多种访问协议接口如:CIFS、NFS、NDMP、Swift消除了数据孤岛,在一套存储中实现不同数据存储和共享。
通过HDFS实现和不同数据服务平台对接,目前已经支持多个版本Hadoop计算平台,如Pivotal、Cloudera、HortonWorks和Apache Hadoop等。
Isilon和Pivotal数据湖方案
Greenplum是EMC收购的一家专注数据库领域的公司,主要包括Share Nothing MPP数据库 Greenplum Database,支持和HDFS和OneFS对接的Greenplum Hadoop,Greenplum DCA一体机, 结合虚拟机实现多租户的数据仓库Greenplum Chorus和Greenplum Analytics 分析咨询服务。EMC提供了由GemFire/SQLFire实时计算和GreenPlum DB组成的传统独立大数据计算方案。Pivotal产品线为了迎合非结构化大数据的需求,提供Greenplum( HAWQ )和hadoop集成提供更强大处理能力的大数据方案。通过DBMS嫁接到Hadoop,使得Hadoop具备结构化数据能力,通过gNet并行数据流引擎提升并行能力、流水化能力,在执行查询等操作时协调相关节点间业务流,移动数据,收集结果等。Pivotal HD大数据方案由GemFire XD( 由GemFire/ SQLFire发展而来 )+HAWQ( 由Greenplum DB发展而来)+ Pivotal HD引擎+Spring XD(分布式数据、数据导入、批处理、数据导出和流式处理)。
Pivotal HD基于Apache Hadoop优化构建而成,为数据湖方案提供了数据处理能力。通过Job Tracker调度并行任务,并由Task Tracker有效完成计算任务、返回计算结果。计算的中间值和结果实现HDFS本地保存。Pivotal HD通过HAWQ和GemFile XD也提供了结构化处理能力和实时数据处理能力。
Isilon提供了HDFS存储接口实现和Pivotal HD对接,通过Name Node和Data Node实现数据存储和高效读取,解决海量数据扩展;同时可以通过Isilon OneFS提供的丰富软件特性和多副本(EC算法)提高数据湖的可靠性。
?
?
?
?
?
?
原创力文档


文档评论(0)