企业数字化转型整体规划-技术篇.ppt

企业数字化转型整体规划-技术篇.ppt

  1. 1、本文档共107页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

流程调度平台—集群可靠性和可扩展性高可用性流程调度所需的元数据信息统一保存在MySQL数据库中,集群中任何服务器发生故障不会破坏元数据完整性。服务器故障时,只需要修改ETL任务属性,指定其他服务器执行任务即可,故障不会影响任务依赖关系、任务组关系。扩展能力流程调度集群由多台服务器构成,按工作负载划分不同角色,分别实现ETL处理过程中不同类型任务的调度。当某类调度工作负载较大时,可通过增加服务器的方式,实现集群的横向扩展流程调度平台—平台部署架构流程调度平台由八台X86服务器构成,服务器按照功能分为两类两台X86服务器部署MySQL数据库集群,存储流程调度元数据六台X86服务器部署流程调度引擎,负责各数据区数据处理流程调度与运行TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient临时/归档区调度服务器1TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient贴源区调度服务器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient汇总区调度服务器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient临时/归档区调度服务器4MasterNodeMySQL主服务器MasterNodeMySQL从服务器……LANMySQL主-从集群,存储临时区、归档区、贴源区和汇总区数据处理任务定义,任务依赖关系按数据区划分工作流,工作流不跨数据区临时区数据处理的工作流部署在数据交换换平台的加载服务器贴园区和汇总区工作流分别部署独立的服务器基础计算平台—平台逻辑架构基础计算平台基于Hadoop集群搭建集群采用标准的X86服务器集群弹性架构,按需分配计算资源,支持添加X86服务器的方式实现横向扩展集群中的数据保留三份,保证任何节点故障,不影响集群对外提供服务基础计算平台有三个数据区构成临时数据区,缓存当日源系统变化(新增、修改、删除)数据,支持后续ELT数据处理贴源数据区,按照源系统数据模型整合的明细历史数据,作为基础数据层实现数据一次整合、多次使用汇总数据区,根据应用需求,对贴源数据区明细数据进行预连接、预聚合、预汇总处理的数据,实现了数据的一次计算、多次使用VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM节点VMVMVMVMVM节点VMVMVMVMVM节点节点节点节点节点节点Hadoop临时数据区贴源数据区汇总数据区基础计算平台—临时数据区包含内容主要用途企业数字化转型要整合的源系统,包括:POP、财务审计、财务研发、大物流、供应链、企业、网站交易、数据部和移动客户端等研发体系的各业务系统。建立数据缓冲区,临时存放从源系统抽取过来的增量/全量数据,支撑后续ELT处理。设计原则数据库设计原则临时数据区对应独立的Hive数据库不对外提供访问,ETL用户对数据库有增、删、查、改权限模型设计原则逻辑模型参考源系统和接口规范定义,为每个接口单元设计实体、属性物理模型与逻辑模型保持一致,每个实体对应一张Hive表,表采用LZO压缩存储物理模型设计不建议考虑索引、物化视图等技术特性以天为单位,按业务日期建立分区历史保留原则缓存当日业务数据、为数据重跑方便可保留7天历史过期数据直接删除对应分区,不需要归档基础计算平台—贴源数据区包含内容主要用途与缓冲层相对应,贴源整合层主要包括:POP、财务审计、财务研发、大物流、供应链、企业、网站交易、数据部和移动客户端等研发体系的各业务系统,所有数据保留历史。作为整个数据平台的基础数据层,累计历史,为主题层、集市层等数据区提供数据支撑。设计原则数据库设计原则贴源数据区对应独立的Hive数据库不对外提供访问,ETL用户对数据库有增、删、查、改权限模型设计原则针对不需要记录变化的实体,其逻辑模型参考缓冲层,按照贴源设计针对需要记录变化的数据,需要增加时间字段,设计拉链数据模型,记录历史物理模型考虑分区,流水表按业务日期建立分区,拉链表按终止日期建立分区历史保留原则拉链表数据保留最近37个月的历史快照表数据永久保留交易流水表数据保留最近25个月的历史过期数据归档到历史归档区,需要时回迁基础计算平台—汇总数据区包含内容主要用途针对客户管理、风险评级和业务量统计设计明细数据进行预汇总、预连接和预加工后的结果数据。对明细数据进行预汇总、预连接

文档评论(0)

发光的金子 + 关注
实名认证
内容提供者

喜欢分享

1亿VIP精品文档

相关文档