大数据生态圈与IBMPlatformSymphony架构设计.docxVIP

下载本文档

4
0
约7.51千字
约 14页
2019-09-27 发布于广东
举报
版权申诉

大数据生态圈与IBMPlatformSymphony架构设计.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

随着开源社区不断的壮大，很多以前鲜为人知的技术慢慢地走进了大众IT人员的视野。对一个数据中心而言，最火的两个技术领域便是云计算与大数据。其中每个领域都有一些代表的项口，如云计算领域的OpenStack. CloudStack等, 那么大数据领域又有哪些知名的项目呢？当面对这样的问题时，很多人可能会快速地回答：Hadoop、Hive Hbase 以及后来的丫arn （Hadoop —代）、Mesos、 Spark. Storm. Flink等。这些答案无疑都是止确的，然而对于整个大数据生态圈而言，会有很多不同的场景需要不同的框架和平台应用去处理，例如流计算任务、批处理任务或者存储的构建、数据的导入等等。我们可以看到一些企业已经开始将一部分业务或者数据迁移到大数据的平台，尤其是一些大型的互联网企业。那么，一个企业该如何选择一个适合的平台甚至一个框架？这个问题不太容易回答。本文致力于介绍整个大数据的生态圈以及IBM Platform Symphony产品，希望读者能从中得到这个问题的线索或答案。分布式大数据框架的分类在详细介绍Platform Symphony与大数据生态圈的关系Z前，让我们先了解一下整个大数据生态圈的组成。我个人的理解是，目前这个行业可以简单的分为三大层次：分别是数据源、数据处理以及数据分析。数据分析是直接将大数据转换为商业价值的领域，在数据分析的领域会提出各种业务需求；数拯处理领域则是负责实现数据分析捉出的需求，这一领域也就是我们经常说的基础设施架构层（Infrastructure）；数据源指的就是数据产生的地方。在这三块之间也有一些衔接的软件领域，不过往往也都归在了数据处理领域（基础架构层），例如衔接数据源与数据处理层的数据导入工具（如Sqoop等），以及衔接数据分析和数据处理的应用接口（如：SQL接口的Hive,以及流接口的Spark Streaming Storm 等）。在大数据的这三大领域中有很多开源以及非开源的产品，熟知的开源的 Hadoop Spark、Mesos等，都屈于数据处理领域，也就是基础架构这一层次。 IBM Platform Symphony也属于这个部分。综上所述，如果宏观的抽彖出整个大数据生态涉及的相关领域，大致如图1所示：数据分析算法以及应用类应用接「1数据导入5邀源$?理系统分布式存储系统辅助许理「. 数据分析算法以及应用类应用接「1 数据导入5 邀源$?理系统分布式存储系统辅助许理「. 图1.大数据行业相关的领域基于对大数据相关领域的宏观描述，下来我们就再谈下基础架构这一块。ri前大多开源相关的大数据框架基木都可以归屈到基础设施架构这个层次。为了更好的理解各个框架之间的关系，我们又将基础设施架构这块分为四层，分别是数据存储层、集群资源管理层、计算引擎层、以及应用接口层。除了一些提供易用性、可维护性以及健壮性的框架之外(一?般也可以统称为管理类)，其他大部分都可以归在这四类。例如HDFS屈丁-数据存储层，Mesos和Yarn则属于集群资源管理层，Hadoop MapReduce Storm Spark 等则归属于计算引擎层,Hive、Pig 则为数据査询提供接口。Ambari则是一个提升易用性和可维护性的工貝， Zookeeper提供了健壮性(HA)。这些系统之间具体的关系，可以参见下面的简图： Amlxiri GraphX Ml.ib Spark SQL Spark St rco ruing Siom Pig Hive ZoakccjKr Spark MapReduce Hbasc Mcmn Yarn I Tailnan 1 HDFS 存篩层计算引幣层应用按口层辅助符理类图2分布式大数据基础架构关系图目询开源的大数据框架所支持的操作系统人多数都只支持了 Linux,不过这一问题相信未来会有所解决，毕竟大多大数据框架的实现语言都是与操作系统无关的 Java (Scala)。大数据案例举例通过以上的介绍，我们了解了其屮一部分大数据相关的开源架构，但可能没法短期内将英对应到实际的案例屮。因此，这里用一个很简单的查询业务架构作为例了，来说明这些框架Z间的貝体关系。由于传统的业务架构会将大部分数据保存在数据库屮,所以这里假设冇一个MySQL数据库保存了海量的客户终端信息(例如电话号码、话单以及动态GPS纪录)，如杲耍将查询业务迁移到大数据平台, 首先要做的便是数据迁移(Data Movement)。对于数据迁移的场景我们可以使用Sqoop工具进行数据导入。简单来说，Sqoop 是一个用MapReduce框架实现的应用，并且Sqoop只有Map的实现。Sqoop 的Map任务会并行的从数据库屮读取表的信