Linkoop领象大数据平台白皮书.pdfVIP

  • 0
  • 0
  • 约5.41千字
  • 约 10页
  • 2024-08-17 发布于湖南
  • 举报

Linkoop领象大数据平台白皮书

V3.0

Linkoop领象大数据平台为企业级大数据应用提供了数据全生命周期的解决方案,包含了数

据集成、数据管理、数据安全、数据查询以及数据分析的整套分布式大数据平台和计算平台,

帮助企业对海量数据进行采集、存储、治理、分析和挖掘,发现数据价值。

Linkoop领象大数据平台技术特点

➢业界领先的大数据计算能力

不论是数据导入、清洗、查询、分析还是复杂的机器学习任务,Linkoop都将这些任务转化

为Hadoop上的分布式计算任务,充分利用整个大数据集群的计算能力。Linkoop对计算任

务中的关键操作进行了定制化开发和优化,如数据加载、多维关联等常用操作,在降低使用

难度的同时提高了计算效率,优化后的处理性能可达Hive-tez的10倍以上,Spark的2-10

倍。Linkoop在电信领域广泛应用,每天处理的新增数据量超过600TB,充分验证了平台数

据处理的性能和稳定性。

➢全图形化的数据处理流程设计

Linkoop创新性地提供了数据处理流程的图形化开发界面,使得在大数据平台上的数据处理

不需要编写Hadoop代码,只需要通过鼠标拖拽添加功能组件,设定功能组件的运行参数和

功能组件之间的依赖关系,就能够完成大数据处理流程的定义。对于定义完成的数据处理流

程,能直接生成计算任务,提交平台执行和监控。全图形化的使用界面大大降低了对大数据

应用开发、实施和运维人员的技术门槛,减少了项目实施的周期和成本。

➢插件式功能扩展

Linkoop提供的功能组件既包括数据采集和ETL任务相关的数据抽取、清洗、脱敏、校验、

转换等功能,也包括了数据分析所需要的多维关联、聚集、统计以及机器学习算法等功能。

在Linkoop的架构中,这些功能组件都是以插件的方式进行添加的,因此对于不同行业和领

域的特殊需要,只需要增加相应的功能组件即可满足特定的计算需求,提高了对不同领域需

求的快速响应能力和灵活的系统扩展能力。

➢流数据处理与批处理一致的操作界面

在Linkoop的图形化开发界面中开发数据处理流程时,流数据处理流程的设计界面和批处理

是一致的,除了部分功能组件(如部分机器学习算法)不支持流数据处理流程之外,大部分

的功能组件是同时支持流数据处理和批处理的。因此在开发面向流数据的大数据实时应用

时,开发人员并不需要学习专门的流数据计算框架,只需要使用与批处理一样的操作逻辑,

即可完成流数据处理的流程设计。

➢无限水平扩展

Linkoop基于Hadoop开源系统开发,完全继承了Hadoop线性水平扩展的特性。通过向集

群增加机器,无需停机即可线性扩充存储容量或提高处理性能。水平扩展的能力有效地解决

了企业由于数据增长和业务增长导致的处理性能不足和频繁数据迁移的问题。Linkoop完全

依托于开源社区,支持在ClouderaCDH、HortonworksHDP以及华为FusionInsight等开源

Hadoop发行版之上部署。

Linkoop领象大数据平台体系架构

图一、Linkoop大数据平台体系架构

Linkoop领象大数据平台由Hadoop、分布式计算框架(Africa)、大数据支撑平台(Grassland)、

数据分析产品(Rhinos)、数据管理产品(Zebra)、数据查询产品(Gazelle)、数据集成产品

(Cheetah)、安全管理产品(Griffin)和运维管理产品(Hippo)构成。

Linkoop分布式计算框架(Africa)

在开源Hadoop的基础上,Linkoop对开源大数据软件生态进行了大量的整合和优化工作,

建立了覆盖实时流数据处理、离线批处理和SQL查询三个最常用的大数据应用场景的分布

式计算框架Africa。Linkoop分布式计算框架中包含流计算框架Flink+、离线计算框架Spark+

和SQL引擎Presto+,通过在开源软件(Flink、Spark和Presto)的基础上进行功能扩展和

性能优化,支持稳定高效的企业级大数据应用。

Linkoop大数据支撑平台(Grassland)

在Linkoop分布式计算框架的基础上,通过对底层的计算框架和存储方案进行包装,Linkoop

能够以多个引擎对上层应用提供大数据计算和存储支持。

Grassland中的引擎包括:

➢流计算引擎

通过将实时流数据上的数据处理任务翻译成优化后的Flink任务,然后提交到执行队列。流

计算引擎还负责轮询任务状态供用户

文档评论(0)

1亿VIP精品文档

相关文档