工业互联网大数据平台建设综合解决方案.ppt

工业互联网大数据平台建设综合解决方案.ppt

数据分级存储原则 数据融合与分级存储实施 按数据血缘 按逻辑层次 按业务种类 按设备网络划分 按设备物理地址 在线、近线、离线 按访问频度 内存数据库 按响应 及时性 内存数据库 数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。 基于生命周期 基于访问压力 基于业务用途 基于物理属性 分级原则 高性能 磁盘库 磁带 光盘库 中低性能 磁盘库 将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。 将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。 数据 数据 数据 1、核心模型融入主数据仓库 主数据仓库 2、历史数据迁移到分布式数据库 分布式数据库 大数据平台: 数据分级存储 工业大数据平台--技术架构 源数据导入ETL,进行数据的清洗、转换和入库。 基础数据加载到主数据仓库,规划保存3年 清洗、转换后的ODS加载到分布式数据库规划保存1+1月,在分布式数据库内完成明细数据和轻度汇总数据加工生成,规划保存2年 ODS数据和非结构化数据,如爬到的网页数据ftp到Hadoop平台做长久保存 非结化数据分析处理在Hadoop平台完成,产生的结果加载到分布式数据库 生成KPI和高度汇总数据加载到主数据仓库。 Hadoop平台 主数据仓库 报表数据 标签库 客户统一视图 …… 信息子层 话单数据 非结构化数据 明细数据层 (DW) 轻度汇总层(MK) 高度汇总层(MK) 应用库 分布式数据库MPP 数据访问 SQL FTP HSQL API ETL 数据采集E T L 互联网 GN口 非结构化数据 BSS 经分 DM VAC MC话单 业务平台 结构化数据 数据源 获取层 1 2 3 4 6 5 业务应用通过数据访问接口获取所需求数据。 7 精细化营销 其他应用1 其他应用2 指标数据 大数据平台: 数据处理流程 数据采集--设备数据 数据采集--实时数据接入处理 数据采集--批量数据接入处理 交互式查询 实时 在线处理 实时 流处理 批处理 基于spark和hadoop的计算模型,同时支持批处理、交互式处理、流处理。 技术架构解决方案 批处理应用 (分钟级别~小时级别) OLTP/在线事务处理应用 (毫秒~秒级别) OLAP/在线交互式分析应用 (秒级别) 实时流处理 (持续不断) 技术架构解决方案 通常的时间跨度在数十秒到数分钟之间 按数据维度进行统计、聚合 根据历史数据进行拟合和预测 计算数据之间的相关性和模式等 适合提供高速在线分析服 典型应用场景 政府各部门数据 证券交易 银行保险 企业ERP/CRM等 适用于数据量在GB到TB的高速数据分析 通常的时间跨度在数百毫秒到数秒之间 数据来源多、高并发、数据处理量达 分析结果快速响应 典型应用场景 社交网络分析、关联关系分析 用户分类、用户行为预测 高并发查询 按主键毫秒级检索 按多维度秒级检索 按照关键字秒级检索 交互式查询 实时在线处理 HDFS:分布式文件系统 有较强的容错性 可在x86平台上运行,减少总体成本 可扩展,能构建大规模的应用 HBase:非结构化NoSQl分布式数据库 基于分布式文件系统HDFS,保证数据安全 列式存储,节省存储空间 提供大数据量的高速读写操作 Hive:分布式关系型数据库 数据可保存在HDFS,可提供海量的数据存储 类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理 通过MapReduce实现大规划并行计算 MapReduce:大规划并行计算引擎 可将任务分布并行运行在一个集群服务器中 Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。 大数据平台: Hadoop主要功能 HBase MapReduce Hive HDFS 快速的数据读取 大数据存储统计 复杂计算并行处理 技术基础研究方向 研究方向 关键任务 制高点 大数据 可视化挖掘 1)新型内存迭代数据挖掘算法 2)数据挖掘可视化开发平台 3)房地产、金融、电信等机器学习模型研究 1)基于内存计算的机器学习算法 2)行业大数据深度机器学习模型 3)大数据可视化挖掘 大数据 内存计算 1)基于内存的迭代算法研究 2)内存大数据高速统计分析技术 1)基于大数据内存的计算技术 2)国内产

文档评论(0)

1亿VIP精品文档

相关文档