- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[企业管理]5数据仓库的设计与开发二
4.2 数据仓库开发 4.3 数据仓库技术与开发的困难 4.2数据仓库开发 4.2.1数据仓库开发过程 4.2.2 数据质量与数据清洗 4.2.3 数据粒度与维度建模 4.2.1数据仓库开发过程 4.2.1.1分析与设计阶段 1.需求分析 2.概念设计 3.逻辑设计 4.物理设计 1.需求分析 确定决策主题域 分析主题域的商业维度 分析支持决策的数据来源 确定数据仓库的数据量大小 分析数据更新的频率 确定决策分析方法 2.概念设计 建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。 E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。 3.逻辑设计 将概念模型(E-R图)转换成逻辑模型,即计算机表示的数据模型。 数据仓库数据模型一般采用星型模型。 星型模型由事实表、维表组成。 4.物理设计 对逻辑模型设计的数据模型确定物理存储结构和存取方法。 数据仓库的星型模型在计算机中仍用关系型数据库存储。 物理设计还需要进行存储容量的估计;确定数据存储的计划;确定索引策略;确定数据存放位置以及确定存储分配。 4.2.1.2数据获取阶段 1.数据抽取 2.数据转换 3.数据装载 1.数据抽取 对数据源的确认,确定数据抽取技术,确认数据抽取频率,按照时间要求抽取数据。 由于源系统的差异性,如计算机平台、操作系统、数据库管理系统、网络协议等的不同造成了抽取数据的困难。 2.数据转换 数据格式的修正 字段的解码 单个字段的分离 信息的合并 变量单位的转化 时间的转化 数据汇总 3.数据装载 初始装载:第一次装入数据仓库。 增量装载:根据定期应用需求装入数据仓 库。 完全刷新:完全删除现有数据,重新装入 新的数据。 4.2.1.3决策支持阶段 1.信息查询 2.知识探索 1.信息查询 信息查询者使用数据仓库能发现目前存在的问题。 创建数据阵列 将相关的数据(每月的数据)放在同一个物理位置上。 预连接表格 对于两个或多个表格共享一个公用链。 预聚集数据 以每天为基础存储数据。在一周结束时,以每周为基础存储数据(即累加每天的数据)。月末时,则以每月为基础存储数据。 聚类数据 聚类将数据放置在同一地点,这样可以提高对聚类数据的查询。 2.知识探索 发现的问题并找出原因。 创建一个单独的探索仓库,不影响数据仓库的常规用户。同时采用“标识技术”进行数据压缩,提高数据分析速度。 使用一些模型帮助决策分析,例如客户分段、欺诈监测、信用分险、客户生存期、渠道响应、推销响应等模型。 通过模型的计算来得出一些有价值的商业知识。 采用数据挖掘工具来获取商业知识。 例如,得到如下一些知识: 哪些商品一起销售好? 哪些商业事务处理可能带有欺诈性? 高价值客户的共同点是什么? 获取的知识为企业领导者提供决策支持,达到保留客户,减少欺诈,提高公司利润具有重要作用。 4.2.1.4维护与评估阶段 1.数据仓库增长 2.数据仓库维护 3.数据仓库评估 1.数据仓库增长 数据仓库建立以后,随着用户的不断增加,时间的增长,用户查询需求更多,数据会迅速增长。 在数据仓库的开发过程中需要适应数据仓库不断增长的现实。 2.数据仓库维护 适应数据仓库增长的维护 数据增长的处理工作有:去掉没有用的历史数据;根据用户使用的情况,取消某些细节数据和无用的汇总数据,增加些实用的汇总数据。 正常系统维护 数据仓库的备份和恢复。 备份数据为系统恢复提供基础,一旦系统出现灾难时,利用备份数据可以很快将数据仓库恢复到正常状态。 3.数据仓库评估 (1)系统性能评定 (2)投资回报分析 (3)数据质量评估 (1)系统性能评定 硬件平台是否能够支持大数据量的工作和多类用户、多种工具的大量需求? 软件平台是否是用一个高效的且优化的方式来组织和管理数据? 是否适应系统(数据和处理)的扩展? (2)投资回报分析 定量分析:计算投资回报率(ROI),即收益与成本的比率。 定性分析:企业与客户之间关系状态?对机会快速反应能力如何?改善管理能力如何? (3)数据质量评估 ①数据是准确的。 ②数据符合它的类型要求和取值要求。 ③数据具有完整性和一致性。 ④数据是清晰的且符合商业规则。 ⑤数据保持时效性并不能出现异常。 4.2.2 数据质量与数据清洗 1. 数据质量问题 2.数据污染产生的原因 3.数据清洗 1. 数据质量问题 (1)字段中的虚假值。 (2)数据值缺失。 (3)不一致的值。 (4)违反常规的不正确值。 (5)一个字段有多种用途。 (6)标法不唯一。 2.数据污染产生的原因 (1)系统转换 (2)数据老化 (3)复杂的系统集
文档评论(0)