- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 * * 数据仓库的概念与性质 内容提要 数据仓库的概念与特性 数据仓库的结构 * * 作业 2 1、学习了解数据仓库的基本概念,理解数据仓库的特性。 2、查阅、学习数据仓库的应用材料,分析数据仓库在其中的作用。 * * 内容回顾:数据库到数据仓库的演变 “蜘蛛网”问题 * * 数据分析的结果缺乏可靠性 * * 数据处理的效率很低 * * 处理与分析分离 * * 数据仓库的基本特性 数据仓库的概念 世界公认的数据仓库概念创始人W.H.Inmon在《数据仓库》(Building the Data Warehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 面向主题的 集成的 随时间变化的 非易失的 数据仓库 * * 数据仓库的基本特性 主题是什么? 主题是一个抽象的概念,是在较高层次上将企业信息综合、归类,并进行分析利用的抽象; 在逻辑意义上,是对企业中某一宏观领域所涉及的分析对象; 例如,银行的数据仓库的主题:客户。从银行储蓄DB、信用卡DB、贷款DB等不同DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。 面向主题的数据组织方式,就是在较高层次上对分析对象的数据一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。 * * 传统OLTP应用的数据库模式(示例) 采购管理系统 定单(定单号,供应商号,总金额,日期) 定单细则(定单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售管理系统 顾客(顾客号,姓名,年龄,文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,日期) 库存管理系统 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,定单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,库房管理员,地点,库存商品描述) * * 面向主题的 财务管理: 资产、信贷、储蓄、… 客户财务信息 数据仓库主题 OLTP 应用 资产 股票 保险 贷款 储蓄 * * 面向主题数据组织模式的说明 在从面向应用到面向主题的转变过程中,丢弃了原来有的但不必要的、不适于分析的信息; 在原有的数据库模式中,有关商品的信息分散在各个子系统之中;面向主题的数据组织方式所强调的就是要形成关于主题一致的信息集合; 不同主题之间有重叠内容。 两种主题实现方式 多维数据库 关系数据库 在具体实现中,一个主题可划分为多个表,主题只是一个逻辑概念。 * * 集成的 Savings Current accounts Loans Customer * * 集成的过程 对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。 通过集成将原始数据结构做一个从面向应用到面向主题的转变。 * * 非易失的 Load 数据仓库 Read Insert Read Update Delete OLTP * * 非易失的 Operational Databases Warehouse Database First time load Refresh Refresh Refresh Purge or Archive * * 随时间变化的 01/09 02/09 03/09 January February March 数据仓库 Time Data 2009 2009 2009 * * 数据仓库与数据库的对比 对 比 内 容 数 据 库 数 据 仓 库 数据内容 当前值 历史的、存档的、归纳的、计算的数据 数据目标 面向业务操作程序,重复处理 面向主题域,分析应用 数据特性 动态变化,按字段更新 静态、不能直接更新,只能定时添加、刷新 数据结构 高度结构化、复杂,适合操作计算 简单、适合分析 使用频率 高 中到低 数据访问量 每个事物只访问少量记录 有的事物可能需要访问大量记录 对响应时间的要求 以秒为单位 时间长 数据仓库的数据量很大:大型DW是一个TB(1000GB)级 数据仓库对软、硬件要求较高,需要一个巨大的硬件平台、需要一个并行的数据库系统 * * 数据仓库的应用与发展 1.数据仓库技术和应用 数据仓库技术的发展包括数据抽取、数据管理、数据表现和方法论等方面。 数据仓库的发展趋势主要表现在三个方面: (1)对非结构化数据的处理 (2)实现共享数据 (3)对信息进行打包 * * 2.国内数据
文档评论(0)