- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库技术及其演变 崔雪征 cuixuezheng@ 原因 精细化竞争 精准 用户精准定位 资源分配、调度 竞争对手、外部情报 速度 客户需求 产品开发 市场投放 可用 时间延长 不可用时间减少 强度加大 数据增长 来源的多样化 人工操作 PC、手机生成 机器生成 数据的多样化 结构化、半结构、非结构化数据 原因 数据量增长 每两年翻番 数据单位:G-T-P-E 软硬件技术进步,价格降价 需求带来供给 供给带来新需求 总体 与OLTP共用到分离 硬件使用方式不同 处理能力有限 从多处OLTP系统获取数据 未来会不会合? Hana等内存数据库 云平台 Oracle ExaData一体机 dw-dw2.0 原因 历史数据管理 企业精细化竞争需求 变化 增加了半结构化、非结构化数据 分交互层、集成层、近线层、离线层 dw3.0什么样? 总体-DW架构 来自:/technetwork/cn/community/developer-day/1-edw-refer-architecture-case-454566-zhs.pdf 总体-DW2.0 来自:DW 2.0 – The Architecture for the Next Generation of Data Warehouse 总体 集中式-分布式-云 原因 单机处理能力有限 高可用 应用复杂 挑战 多服务器协作 跨服务器数据关联 单机不可靠 云服务的迁移 反向于集中式? 云是否合适大数据? 结构化数据-半结构化、非结构化数据 体量大(Volume) 类型多样化(Variety) *处理速度快(Velocity) 价值密度低(Value) 如何高效利用半结构化、非结构化数据? 总体 批处理-实时 小时、天、周计算频率到现在的分钟、秒甚至毫秒 主要用于决策到用于生产 挑战 获取数据 与历史数据集成、一致性、完整性 异常处理 提供高并发实时服务 批处理、实时可不可以用一套框架处理? 数据库 SMP-MPP SMP代表:oracle、db2、sql server MPP代表:teradata、greenplum、netezza MPP-NoSQL 集群扩展能力有限 对非结构化数据支持不好 引擎较单一 NoSQL和MPP会不会融合到一起? RDBMS-专有数据库 图数据库、多维数据库 Hadoop 优点 较早解决了利用PC服务器扩展到上千台服务器 生态系统发展良好 大量的使用 数据库 缺点 MR效率低 复杂 学习成本高 稳定性较差 Spark 优点 速度快 高级API,开发效率高 集成流式处理、数据挖掘、SQL 缺点 快速开发中 复杂 大数据框架的发展方向 效率 总体效率 单机效率 数据库 规范 SQL 事务 JDBC、ODBC 稳定、易用 降低安装复杂度 降低维护难度 不可用时间减少 大一统VS专业化 大一统带来易使用、易维护、规范化,同时特定应用效率、成果会比较低 专业化带来更专业的处理方式,效率更高,同时部署、维护难度更大 数据库的发展方向 大规模横向扩展 半结构、非结构化数据支持 与大数据架构的配合 数据库配合使用 数据库-其他技术 列式存储 只扫描相应的列 混合使用多种存储介质 磁带、光盘、HDD、SSD、内存 压缩 CPU换IO,大部分不是时间换空间 分区 Load Bitmap索引 无主外键 不记日志(弱日志) 预统计(inforbright knowledge grid) 部分信息统计后放入系统表,查询直接走系统表 还有哪些技术可以引入? Spark是未来吗? ETL 趋势分析-生产应用 批处理-实时处理 粗略-精准 单一类型-多种类型数据同时使用 同时使用文本文件、专有格式文件、多种数据库 ETL工具 专有工具,独立服务器 代表 IBM DataStage、Informatica PowerCenter、Pentaho Kettle 优点 集成度高 学习门槛低 多种数据源协同工作 缺点 复杂问题灵活不够 单独学习 ETL 演进同数据库路线类似 SMP、MPP HA 多种数据源混合使用 ETL-数据仓库 直接利用数据仓库的存储与计算能力 优点 学习成本低 充分利用资源 实现灵活 缺点 必须入库才可操作 调度等需要单独开发 与其他服务争抢资源 基于工具或数据仓库,哪种方式在大数据处理方面占优势? BI 第三方开发-自服务 工具更容易使用 用户要求响应时间更短 PC-移动 一切前端应用移动化 BI工具 MOLAP生成Cube文件,需要独立服务器 代表 IBM cognos、SAP BO、oracle BIEE、tableau 优缺点同ETL工具 自带数据集市 专有格式-通用格式 专有服务器-通用服务器 我们需要什么样的BI? 数据挖掘 完
文档评论(0)