工业互联网大数据平台建设综合解决方案.ppt

下载文档

67
0
约6.61千字
约 42页
2021-07-09 发布于山东
举报
保障服务

工业互联网大数据平台建设综合解决方案.ppt

数据分级存储原则数据融合与分级存储实施按数据血缘按逻辑层次按业务种类按设备网络划分按设备物理地址在线、近线、离线按访问频度内存数据库按响应及时性内存数据库数据生命周期中在线数据对高性能存储的需求，以及随着数据生命周期的变更，逐渐向一般性能存储的迁移，是分级存储管理的一条主线。同时兼顾考虑其他分级原则，共同作用影响数据迁移机制。基于生命周期基于访问压力基于业务用途基于物理属性分级原则高性能磁盘库磁带光盘库中低性能磁盘库将核心模型（即中度汇总的模型）通过改造融入到现有主数据仓库的核心模型中，减少数据冗余，提升数据质量。将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库，减轻主数据仓库的计算与存储压力并支撑深度数据分析。数据数据数据 1、核心模型融入主数据仓库主数据仓库 2、历史数据迁移到分布式数据库分布式数据库大数据平台：数据分级存储工业大数据平台--技术架构源数据导入ETL，进行数据的清洗、转换和入库。基础数据加载到主数据仓库，规划保存3年清洗、转换后的ODS加载到分布式数据库规划保存1+1月，在分布式数据库内完成明细数据和轻度汇总数据加工生成，规划保存2年 ODS数据和非结构化数据，如爬到的网页数据ftp到Hadoop平台做长久保存非结化数据分析处理在Hadoop平台完成，产生的结果加载到分布式数据库生成KPI和高度汇总数据加载到主数据仓库。 Hadoop平台主数据仓库报表数据标签库客户统一视图 …… 信息子层话单数据非结构化数据明细数据层（DW）轻度汇总层（MK）高度汇总层（MK）应用库分布式数据库MPP 数据访问 SQL FTP HSQL API ETL 数据采集E T L 互联网 GN口非结构化数据 BSS 经分 DM VAC MC话单业务平台结构化数据数据源获取层 1 2 3 4 6 5 业务应用通过数据访问接口获取所需求数据。 7 精细化营销其他应用1 其他应用2 指标数据大数据平台：数据处理流程数据采集--设备数据数据采集--实时数据接入处理数据采集--批量数据接入处理交互式查询实时在线处理实时流处理批处理基于spark和hadoop的计算模型，同时支持批处理、交互式处理、流处理。技术架构解决方案批处理应用（分钟级别~小时级别） OLTP/在线事务处理应用（毫秒~秒级别） OLAP/在线交互式分析应用（秒级别）实时流处理（持续不断）技术架构解决方案通常的时间跨度在数十秒到数分钟之间按数据维度进行统计、聚合根据历史数据进行拟合和预测计算数据之间的相关性和模式等适合提供高速在线分析服典型应用场景政府各部门数据证券交易银行保险企业ERP/CRM等适用于数据量在GB到TB的高速数据分析通常的时间跨度在数百毫秒到数秒之间数据来源多、高并发、数据处理量达分析结果快速响应典型应用场景社交网络分析、关联关系分析用户分类、用户行为预测高并发查询按主键毫秒级检索按多维度秒级检索按照关键字秒级检索交互式查询实时在线处理 HDFS：分布式文件系统有较强的容错性可在x86平台上运行，减少总体成本可扩展，能构建大规模的应用 HBase：非结构化NoSQl分布式数据库基于分布式文件系统HDFS，保证数据安全列式存储，节省存储空间提供大数据量的高速读写操作 Hive：分布式关系型数据库数据可保存在HDFS，可提供海量的数据存储类SQL的查询语句，提供大数据的统计和分析操作，适合海量数据的批处理通过MapReduce实现大规划并行计算 MapReduce：大规划并行计算引擎可将任务分布并行运行在一个集群服务器中 Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源， Hadoop集群可以扩展到上千台服务器。同时，Hadoop在设计时充分考虑了硬件设备的不可靠因素，在软件层面提供数据和计算的高可靠保证。大数据平台： Hadoop主要功能 HBase MapReduce Hive HDFS 快速的数据读取大数据存储统计复杂计算并行处理技术基础研究方向研究方向关键任务制高点大数据可视化挖掘 1）新型内存迭代数据挖掘算法 2）数据挖掘可视化开发平台 3）房地产、金融、电信等机器学习模型研究 1）基于内存计算的机器学习算法 2）行业大数据深度机器学习模型 3）大数据可视化挖掘大数据内存计算 1）基于内存的迭代算法研究 2）内存大数据高速统计分析技术 1）基于大数据内存的计算技术 2）国内产

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

工业互联网大数据平台建设综合解决方案.ppt