大数据相关内容.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE

1-

PAGE

160-

大数据存储支持

存储主要采用基于HDFS的分布式文件系统和索引库,在中心数据库端,获取消息队列中的数据库变化的日志文件,按照完全同步的要求插入或更新到Hadoop平台的分布式关系大数据库中。

数据库日志解析

通过读取源端生产系统数据库中的日志获取变化数据,经过内部解析和转换,再根据TCP/IP协议发送并快速应用到目标端(HBase),完成异构数据的实时同步过程。主要功能设计如下:

各主流数据库日志解析:

Oracle9i以上日志解析

IBMDB2UDB8.1以上版本日志解析

MicrosoftSQLServer2000以上版本日志解析

MySQL5.0以上版本日志解析

SybaseASE12.5.4以上版本等主流数据库日志解析

日志解析存储:

将各种数据库日志解析后生成中间统一日志格式存储

主动异构数据源抽取

在各个医院、基层医疗等生产系统中,实时监控关系数据数据库日志变化,通过数据库事件解析数据库日志,降增量数据转化为XML文件格式的数据以生产者的角色发送到Kafka消息队列之中,供存储端服务进行消费。实现数据实时ETL。

抽取吞吐每秒3000条记录。主要功能设计如下:

日志抽取:

从源端数据库的在线日志或者归档日志捕获源端数据的变化。

分布式消息队列处理

分布式发布订阅消息系统中的分布式消息队列是大数据平台架构中的关键组件。在结合了数据挖掘,数据分析和数据监控等需求的情况下,能够满足各种实时在线和批量离线处理应用场合对低延迟和批量吞吐性能的要求,它具有分布式、高吞吐、低延时和支持多种语言接口等优势。系统一边接收生产端发生的消息,一边由消费端源源不断地按序消费,它保证了数据流的实时性、连续性和稳定性。总体而言,系统试图提供一个同时满足在线和离线处理海量数据的消息派发。

解析管理:

功能包括:启动、监控、重启的其他进程;报告错误及事件;分配数据存储空间;发布阈值报告。

大数据流转换模块

大数据流转换模块是基于B/S架构的,集大数据任务设计、部署和执行等功能为一体的数据流转换软件套件,支持图形化的同步、转换和装载等任务的设计部署和执行,并且提供任务的远程执行和监控功能,实现对平台内所有执行主机的统一管理和监控。

平台的主要功能特点如下:

1.B/S架构

基于B/S架构的平台具有轻客户端的特点,使用者只需要安装一个浏览器就可以使用平台,不需要过多的操作系统适配,具有更好的平台适用性,并且对于系统自身来说,维护和升级过程也更加便捷,具有更好的可维护性。

2.支持动态多机任务部署

平台支持在多台执行主机上执行不同的任务,可以充分的利用平台的计算资源,灵活均衡任务的负载。在机器资源充足的情况下,支持执行机器的横向动态扩展,可以方便的满足不断增长的任务的计算资源需求。

3.兼容数据转换和作业

完全兼容数据的转换和作业,设计好的转换或作业可以直接在平台上部署执行,具有优秀的平台适应性和通用性。

4.具备任务异常处理能力

在同步/转换任务的执行过程中,如果任务进程意外中断,平台会在中断的位置为任务设定重新同步的恢复点,在任务中断原因排除之后,在进行数据的重新同步时,会从恢复点重新开始同步/转换,保证数据的最终一致性。

5.原生支持分布式关系大数据库

另外,平台还提供对分布式关系大数据库的支持,包含了对大数据库的jdbc等连接的原生支持,可以通过平台组件,直接对大数据库内数据进行各类sql同步/转换的操作。

6.数据处理可视化开发

在基础的数据和汇总的数据的基础上,进行数据关联加工,以支持应用需求所需要的数据。其实现的功能如下:

将数据加工抽象成5大类基础层函数库,通过可视化的函数流程编排,实现数据加工功能。

变量管理。支持预设的全局变量、自定义的全局变量和运行时的变量。

函数管理。支持预设函数,自定义函数。可以通过shell、java、tcl等扩展函数。

可视化函数流程编排。支持条件、循环等流程设置。支持导入,导出等功能

支持常见各种类型数据库。如oracle,sybase,sqlserver、db2、mysql。包括分布式关系大数据库。

支持复杂的规则引擎处理。

灵活的运行方式。可以从开始节点运行,也可以从上次运行错误点开始运行元数据管理。支持数据模型、数据流程、转换规则、关系分析。

任务设计

在大数据流转换平台上可以新建一个转换或者同步过程,根据需要自行进行编辑和设计。平台提供了丰富的组件来对建立转换或同步进行支持。

任务部署

在完成任务的设计与编辑之后,可以将任务部署在不同的主机上,实现任务的分布式部署执行。可以根据需要选择不同的主机执行,并且可以选择不同的日志级别,配置不同的执行参数。

另外,在部署完成之后,平台提供一键恢复的功能,保证了在主机意外宕机或者平台执行任务遇到问题

文档评论(0)

无名 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档