数据仓库技术及其演变.pptVIP

  • 0
  • 0
  • 约2.44千字
  • 约 18页
  • 2023-07-06 发布于广东
  • 举报
数据仓库技术及其演变第一页,共十八页,2022年,8月28日 原因精细化竞争精准用户精准定位资源分配、调度竞争对手、外部情报速度客户需求产品开发市场投放可用时间延长不可用时间减少强度加大数据增长来源的多样化人工操作PC、手机生成机器生成数据的多样化结构化、半结构、非结构化数据第二页,共十八页,2022年,8月28日 原因数据量增长每两年翻番数据单位:G-T-P-E软硬件技术进步,价格降价需求带来供给供给带来新需求第三页,共十八页,2022年,8月28日 总体与OLTP共用到分离硬件使用方式不同处理能力有限从多处OLTP系统获取数据未来会不会合?Hana等内存数据库云平台Oracle ExaData一体机dw-dw2.0原因历史数据管理企业精细化竞争需求变化增加了半结构化、非结构化数据分交互层、集成层、近线层、离线层dw3.0什么样?第四页,共十八页,2022年,8月28日 总体-DW架构来自:第五页,共十八页,2022年,8月28日 总体-DW2.0来自:DW 2.0 – The Architecture for the Next Generation of Data Warehouse 第六页,共十八页,2022年,8月28日 总体集中式-分布式-云原因单机处理能力有限高可用应用复杂挑战多服务器协作跨服务器数据关联单机不可靠云服务的迁移反向于集中式?云是否合适大数据?结构化数据-半结构化、非结构化数据体量大(Volume)类型多样化(Variety)*处理速度快(Velocity)价值密度低(Value)如何高效利用半结构化、非结构化数据?第七页,共十八页,2022年,8月28日 总体批处理-实时小时、天、周计算频率到现在的分钟、秒甚至毫秒主要用于决策到用于生产挑战获取数据与历史数据集成、一致性、完整性异常处理提供高并发实时服务批处理、实时可不可以用一套框架处理?第八页,共十八页,2022年,8月28日 数据库SMP-MPPSMP代表:oracle、db2、sql serverMPP代表:teradata、greenplum、netezzaMPP-NoSQL集群扩展能力有限对非结构化数据支持不好引擎较单一NoSQL和MPP会不会融合到一起?RDBMS-专有数据库图数据库、多维数据库Hadoop优点较早解决了利用PC服务器扩展到上千台服务器生态系统发展良好大量的使用第九页,共十八页,2022年,8月28日 数据库缺点MR效率低复杂学习成本高稳定性较差Spark优点速度快高级API,开发效率高集成流式处理、数据挖掘、SQL缺点快速开发中复杂大数据框架的发展方向效率总体效率单机效率第十页,共十八页,2022年,8月28日 数据库规范SQL事务JDBC、ODBC稳定、易用降低安装复杂度降低维护难度不可用时间减少大一统VS专业化大一统带来易使用、易维护、规范化,同时特定应用效率、成果会比较低专业化带来更专业的处理方式,效率更高,同时部署、维护难度更大数据库的发展方向大规模横向扩展半结构、非结构化数据支持与大数据架构的配合数据库配合使用第十一页,共十八页,2022年,8月28日 数据库-其他技术列式存储只扫描相应的列混合使用多种存储介质磁带、光盘、HDD、SSD、内存压缩CPU换IO,大部分不是时间换空间分区LoadBitmap索引无主外键不记日志(弱日志)预统计(inforbright knowledge grid)部分信息统计后放入系统表,查询直接走系统表还有哪些技术可以引入?第十二页,共十八页,2022年,8月28日 Spark是未来吗?第十三页,共十八页,2022年,8月28日 ETL趋势分析-生产应用批处理-实时处理粗略-精准单一类型-多种类型数据同时使用同时使用文本文件、专有格式文件、多种数据库ETL工具专有工具,独立服务器代表IBM DataStage、Informatica PowerCenter、Pentaho Kettle优点集成度高学习门槛低多种数据源协同工作缺点复杂问题灵活不够单独学习第十四页,共十八页,2022年,8月28日 ETL演进同数据库路线类似SMP、MPPHA多种数据源混合使用ETL-数据仓库直接利用数据仓库的存储与计算能力优点学习成本低充分利用资源实现灵活缺点必须入库才可操作调度等需要单独开发与其他服务争抢资源基于工具或数据仓库,哪种方式在大数据处理方面占优势?第十五页,共十八页,2022年,8月28日 BI第三方开发-自服务工具更容易使用用户要求响应时间更短PC-移动一切前端应用移动化BI工具MOLAP生成Cube文件,需要独立服务器代表IBM cognos、SAP BO、oracle BIEE、tableau优缺点同ETL工具自带数据集市专有格式-通用格式专有服务器-通用服务器我们需要什么样的

文档评论(0)

1亿VIP精品文档

相关文档