- 1、本文档共57页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对公数据集市介绍
对公数据集市项目组
2014年1月
目录
对公集市架构介绍
对公集市背景及目标
补录与产品、报表重跑
对公集市功能介绍
对公集市下游介绍
数据仓库概述
银行业务简介
目录
对公集市架构介绍
对公集市背景及目标
补录与产品、报表重跑
对公集市功能介绍
对公集市下游介绍
数据仓库概述
银行业务简介
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。
数据仓库的四个特点:
1)面向主题
2)集成
3)非易失
4)随时间变化
数据仓库概述
操作系统是面向事务处理的。事务处理关注的是整个事务操作流程,即操作系统是围绕事务操作流程来组织数据的。
数据仓库是面向主题的。主题是管理人员分析问题的重点。面向主题就是所有的数据都是根据主题来组织的。即数据仓库的数据都是围绕分析的重点来进行组织数据的。
面向主题
面向主题
操作系统
数据仓库
票据
信用证
贷款
客户
协议
产品
集成是数据仓库最重要的特性。
集成并不是简单的把数据聚合在一起,还要消除数据的不一致性。由于数据仓库是面向主题的,一个主题下可以包含多个源系统的数据,只有统一各个源系统不同的编码,才能在同一个主题下汇总、分析数据,从而消除不同系统间的信息孤岛问题。
集成
客户 A:A1
性别 男:M
机构 O:O1
客户 A:A2
性别 男:0
机构 O:O2
客户 A:A3
性别 男:1
机构 O:O3
客户 A:A
性别 男:M
机构 O:O
操作系统
数据仓库
…
核心
信贷
国结
MAPPING
操作系统是实时、事务级的更新和小数据明细的查询。
数据仓库是定期、批量更新和大数据汇总查询的。由于数据仓库一般并不会更新历史数据,所以数据仓库是非易失的。
非易失
操作系统
数据仓库
载入
访问
修改
增加
删除
查询
操作系统一般只会保留数据的最新记录。
数据仓库需要保留各个历史时点的数据,已便于对数据在时间维度上进行分析、挖掘。
随时间变化
操作系统
数据仓库
时间期限:近三个月
记录更新
日期戳可有可无
时间期限:5~10年
复杂的快照数据
时间维度
自顶向下:先建设数据仓库,再建设数据集市
自底向上:先独立建设数据集市,在统一维度总线的基础上合成数据仓库
数据仓库的两种建设方式
核心
信贷
国结
…
数据仓库
对公集市
零售集市
风险集市
…
核心
信贷
国结
…
数据仓库
对公集市
零售集市
风险集市
…
自顶向下
自底向上
统一维度总线
一般银行业数据平台架构
数据架构中的关注点(五个维度)
目标
服务数据加载;
直接提供基于源系统结构的简单原貌访问;
长期的,细节的,整合的数据存储;
为BI环境中的各类业务需求提供支持
相对通用,具业务意义的初加工数据;
作为上层应用数据加工的基础,或供业务人员直接访问;
服务特定应用
原则
简单处理,不考虑整合;
关注保留策略;
面向全局,数据整合
中性设计,灵活扩展
提供规范和共享
提炼应用需求共性
多种数据粒度
易于理解和使用
面向具体应用
按需设计
形式
偏源系统模型;
少量数据保留短暂历史;
部分数据保留全量
面向主题设计;
偏范式化;
长期保留历史;
初步数据加工;
分层设计;
形式各异,依具体应用不同;
重点
理解源结构
主题定义
框架设计
整合策略
实施方法
应用筛选
应用提炼
整体性
一致性
用途
业务原貌查询
即时报表
数据质量检查
灵活查询
整合规则检查
常规报表
灵活查询
业务规则检查
特定应用
缓冲层
基础层
汇总层
应用集市层
数据架构之EDW
12
数据平台
EDW
供统一的业务口径
避免集市的重复加工
随着应用建设逐步完善
业务统计口径变化,ETL会随之变化
视情况保留较长历史
为ETL方便设计的专用层,可加载增量或全量数据
在此层完成数据同构化
数据原样加载,保持与源结构一致
一般按照业务系统进行命名识别
可保留部分最近数据以供重新加载
面向整合
主题设计
标准化数据
3NF设计
保留较长历史
面向应用,按需定制
可分为内部集市和外部集市
可通过反范式提高响应性能
可为汇总层提供扩充依据
视情况保留较长历史
从前面一般银行数据仓库的架构可以看出,数据集市是数据仓库的一个子集,是为特定的分析应用而建设的。
数据集市根据所处位置的不同分以下几类:
数据集市
数据仓库
源系统
....
信用卡
网银
基金代销
核心
信贷
国结
数
据
缓
冲
层
仓内物理集市
仓外物理集市
仓内逻辑集市
整
合
数
据
层
共
性
汇
总
层
目录
对公集市架构介绍
对公集市背景及目标
补录与产品、报表重跑
对公集市功能介绍
对公集市下游介绍
数据仓库概述
银行业务简
文档评论(0)