- 56
- 0
- 约6.14千字
- 约 20页
- 2018-05-20 发布于福建
- 举报
一体机解决方案 企业融合数据平台 什么是大数据?Velocity-速 度Variety-多样性 Value-价值密度Volume-巨 量数据量巨大全球在2010 年正式进入ZB 时代IDC预计到2020 年,全球将总共拥有40ZB 的数据量沙里淘金,价值密度低一部数小时的视频,可能有用的数据仅仅只有一两秒。如何迅速“提纯”是大数据亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求专业咨询公司IDC对大数据的定义-4V大数据变革下企业信息化面临的挑战 采用传统IT架构存储和处理海量数据成本居高不下 容量和性能按需扩展困难,IT基础建设难以满足增长规划存:数据增长快管:数据多样性大量孤立的业务系统,数据整合共享难业务种类繁多,数据结构各不相同,统一管理难 查:数据挖掘犹如沙里淘金用:实战要求高 多部门、多业务诉求不一,数据分析模型难固化 实战中对信息的及时性、全面性、准确性要求高碰撞比对涉及多张表,关联分析效率低海量数据百亿记录,检索分析慢企业大数据需求分析——三类场景、四大需求以非结构化为补充结构化和非结构化相结合以结构化为主典型交易型、分析型数据库、ERP/CRM、商务智能、决策分析系统等。通过对数据进行加工,智能搜索、关联查询、碰撞比对等手段,开展数据挖掘和分析(如经营分析、竞争营销、决策支持分析等)重点分析网上交易记录、聊天记录、论坛发帖、微博评论、email等非结构化数据,开展舆情预测、社会化营销等业务在结构化数据之外,还要附带及整合分析文本、图片、语音、视频等非结构化数据,开展图像处理、证据归档、历史数据保存及应用等业务TOP4需求应用服务提供面向公安实战的大数据服务检索分析实现海量数据的快速查询数据管理管理多样复杂的海量数据基础架构构建高扩展低成本的大规模存储和计算平台技术应对需求在线数据处理(流处理)数据探索/挖掘应用系统库1聚合规则匹配过滤关联统计报表应用系统库2数据库(仓库)ETL应用系统库3数据库云数据挖掘智能集群数据库多维分析应用系统库n仪表盘泛结构化数据处理数据获取特征提取高级语言/优化数据挖掘批量计算/ NoSQL数据管控大规模存储数据安全生命周期管理 挑战 应对 业务固定,数据量小且增长缓慢 传统集群数据仓库 集群数据仓库无法适应大规模数据量 使用MPP Share Nothing数据仓库,将数据与计算进行分布化 数据库无法存储异构数据及复杂计算 引入并行批量处理/大规模存储/NoSQL技术 数据探索的体验(秒级响应)与习惯(SQL查询)不变 需要对泛结构化数据处理添加SQL语法及查询优化技术实时响应要求“即来即处理”,原始数据体量巨大,无法先存储再分析 需要使用“分析后丢弃”的模式对数据生命周期管理、数据可信度、以及数据隐私安全等管控特性有着更强的要求 大体量下的数据管控能力新兴大数据技术1:大规模并行数据库处理架构传统单机数据库SMP架构数据库分布式数据库云平台计算集中,存储集中计算分布,存储集中计算分布,存储分布网络高速通信网络DB ServDB ServDB ServDB ServDB ServDB ServDB ServDB ServDB ServSAN/FC共享磁盘磁盘磁盘磁盘磁盘磁盘分布式并行存储池分布式数据库云架构,将任务均衡分解至多个节点同时运行,有效解决大规模数据作业计算、缓存、IO等瓶颈带来的性能问题在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围新兴大数据技术2:Hadoop分布式批处理框架Hadoop 是用于大数据分析的开源框架,它包括一个分布式文件系统(HDFS)、一个并行处理框架(MapReduce)和多种不同的组件,支持数据获取、工作流协调、任务管理以及集群监控等功能。Hadoop目前在大数据分析平台架构中的最典型角色是海量非结构化数据分析平台:日志、点击流分析舆情、网监、技侦Web数据分析和文本挖掘视频、音频数据分析XML数据分析经Hadoop分析后的数据,再导入到结构化数据库中供后续使用。对数据的认知和数据模型的演进企业大数据方案
原创力文档

文档评论(0)