大数据生态圈与IBMPlatformSymphony架构设计.docxVIP

大数据生态圈与IBMPlatformSymphony架构设计.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
随着开源社区不断的壮大,很多以前鲜为人知的技术慢慢地走进了大众IT人员 的视野。对一个数据中心而言,最火的两个技术领域便是云计算与大数据。其中 每个领域都有一些代表的项口,如云计算领域的OpenStack. CloudStack等, 那么大数据领域又有哪些知名的项目呢?当面对这样的问题时,很多人可能会快 速地回答:Hadoop、Hive Hbase 以及后来的丫arn (Hadoop —代)、Mesos、 Spark. Storm. Flink等。这些答案无疑都是止确的,然而对于整个大数据生态 圈而言,会有很多不同的场景需要不同的框架和平台应用去处理,例如流计算任 务、批处理任务或者存储的构建、数据的导入等等。我们可以看到一些企业已经 开始将一部分业务或者数据迁移到大数据的平台,尤其是一些大型的互联网企 业。那么,一个企业该如何选择一个适合的平台甚至一个框架?这个问题不太容 易回答。本文致力于介绍整个大数据的生态圈以及IBM Platform Symphony产 品,希望读者能从中得到这个问题的线索或答案。 分布式大数据框架的分类 在详细介绍Platform Symphony与大数据生态圈的关系Z前,让我们先了解一 下整个大数据生态圈的组成。我个人的理解是,目前这个行业可以简单的分为三 大层次:分别是数据源、数据处理以及数据分析。数据分析是直接将大数据转换 为商业价值的领域,在数据分析的领域会提出各种业务需求;数拯处理领域则是 负责实现数据分析捉出的需求,这一领域也就是我们经常说的基础设施架构层 (Infrastructure);数据源指的就是数据产生的地方。在这三块之间也有一些衔 接的软件领域,不过往往也都归在了数据处理领域(基础架构层),例如衔接数 据源与数据处理层的数据导入工具(如Sqoop等),以及衔接数据分析和数据 处理的应用接口(如:SQL接口的Hive,以及流接口的Spark Streaming Storm 等)。在大数据的这三大领域中有很多开源以及非开源的产品,熟知的开源的 Hadoop Spark、Mesos等,都屈于数据处理领域,也就是基础架构这一层次。 IBM Platform Symphony也属于这个部分。综上所述,如果宏观的抽彖出整个 大数据生态涉及的相关领域,大致如图1所示: 数据分析算法以及应用类应用接「1数据导入5邀源$?理系统分布式存储系统辅助许理「. 数据分析算法以及应用类 应用接「1 数据导入5 邀源$?理系统 分布式存储系统 辅助许理「. 图1.大数据行业相关的领域 基于对大数据相关领域的宏观描述,下来我们就再谈下基础架构这一块。ri前大 多开源相关的大数据框架基木都可以归屈到基础设施架构这个层次。为了更好的 理解各个框架之间的关系,我们又将基础设施架构这块分为四层,分别是数据存 储层、集群资源管理层、计算引擎层、以及应用接口层。除了一些提供易用性、 可维护性以及健壮性的框架之外(一?般也可以统称为管理类),其他大部分都可 以归在这四类。例如HDFS屈丁-数据存储层,Mesos和Yarn则属于集群资源管 理层,Hadoop MapReduce Storm Spark 等则归属于计算引擎层,Hive、Pig 则为数据査询提供接口。Ambari则是一个提升易用性和可维护性的工貝, Zookeeper提供了健壮性(HA)。这些系统之间具体的关系,可以参见下面的 简图: Amlxiri GraphX Ml.ib Spark SQL Spark St rco ruing Siom Pig Hive ZoakccjKr Spark MapReduce Hbasc Mcmn Yarn I Tailnan 1 HDFS 存篩层 计算引幣层 应用按口层 辅助符理类 图2分布式大数据基础架构关系图 目询开源的大数据框架所支持的操作系统人多数都只支持了 Linux,不过这一问 题相信未来会有所解决,毕竟大多大数据框架的实现语言都是与操作系统无关的 Java (Scala)。 大数据案例举例 通过以上的介绍,我们了解了其屮一部分大数据相关的开源架构,但可能没法短 期内将英对应到实际的案例屮。因此,这里用一个很简单的查询业务架构作为例 了,来说明这些框架Z间的貝体关系。由于传统的业务架构会将大部分数据保存 在数据库屮,所以这里假设冇一个MySQL数据库保存了海量的客户终端信息(例 如电话号码、话单以及动态GPS纪录),如杲耍将查询业务迁移到大数据平台, 首先要做的便是数据迁移(Data Movement)。 对于数据迁移的场景我们可以使用Sqoop工具进行数据导入。简单来说,Sqoop 是一个用MapReduce框架实现的应用,并且Sqoop只有Map的实现。Sqoop 的Map任务会并行的从数据库屮读取表的信

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档