- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二节 数据仓库原理
第2章 数据仓库原理 本章学习目标: 掌握数据仓库的定义,四个基本特征 掌握数据集市的概念,与数据仓库区分 掌握数据仓库的体系结构 掌握数据仓库中数据组织方式 掌握数据处理过程 掌握元数据的概念、元数据管理的原理 第2章 数据仓库原理 2.1 数据仓库定义 2.2 数据集市 2.3 数据仓库体系结构 2.4 数据组织结构和形式 2.5 数据抽取E、转换T和装载L(ETL) 2.6 元数据管理 2.1 数据仓库定义 William H.Inmon:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理人员的决策。 四个基本特征 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是非易失的 数据仓库的数据是随时间不断变化的 面向主题 主题(Subject):特定的数据分析领域与目标。 面向主题:为特定的数据分析领域提供数据支持。 面向主题 为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。 数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。 面向主题示例 例:一个面向事务处理的“商场”数据库系统,其数据模式如下 采购子系统: 订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,日期) 面向主题示例 库存管理子系统: 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,仓库管理员,地点,库存商品描述) 人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话) 面向主题示例 上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。 如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。 主题一:商品 商品固有信息:商品号,商品名,类别,颜色等 商品采购信息:商品号,供应商号,供应价,供应日期,供应量等 商品销售信息:商品号,顾客号,售价,销售日期,销售量等 商品库存信息:商品号,库房号,库存量,日期等 主题二:供应商 供应商固有信息:供应商号,供应商名,地址,电话等 供应商品信息:供应商号,商品号,供应价,供应日期,供应量等 主题三:顾客 顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等 顾客购物信息:顾客号,商品号,售价,购买日期,购买量等 面向主题 在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。 不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;是部分细节的重叠,而不是完全的重叠。 面向主题 每个主题所需数据的物理存储: 多维数据库(MDDB—Multi-Dimensional DataBase)用多维数组形式存储数据。 关系数据库。用一组关系来组织数据的存储,同一主题的一组关系都有一个公共的关键字,存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。 集成的 数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不一致问题、外部数据和非结构化数据。 数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。 集成的 集成的方法: 统一:消除不一致的现象 综合:对原有数据进行综合和计算 需要考虑的问题: 数据格式 计量单位 数据代码含义混乱 数据名称混乱 非易失的 数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是‘查询’操作,一般情况下不执行‘更新’操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。 但这也不等于数据仓库中的数据不需要‘更新’操作。
您可能关注的文档
- 易讯电子政务解决方法简介.pdf
- 益阳市政务中心电子政务综合系统项目变更.doc
- 越秀区电子政务建设“十一五”规划(点击下载浏览)-越秀区.doc
- 浙江省xx市电子政务关键技术跟运用系统方法建议书(doc 145).doc
- 中国电子政务.ppt
- 中国电子政务的发展现状跟对策选择(ppt 67).ppt
- 中国电子政务发展e-governmentdevelopmentinchina.ppt
- 中国——电子政务跟审计信息化.ppt
- 中国电子政务探究中心电子政务红皮书.doc
- 中国科学院软件探究所电子政务运用系统的构建.doc
- 2025年中国乙氧苯柳胺软膏市场调查研究报告.docx
- 2025年及未来5年电信设备项目市场数据调查、监测研究报告.docx
- 2025年中国产宝口服液市场调查研究报告.docx
- 2025年及未来5年远红外线热敷按摩仪之瑞颈灵项目市场数据分析可行性研究报告.docx
- 2025年中国2—氨基—4,6—二氯嘧啶市场调查研究报告.docx
- 2025年及未来5年双层风琴帘项目市场数据调查、监测研究报告.docx
- 2025年及未来5年多功能短路定位分析仪项目市场数据调查、监测研究报告.docx
- 2025年中国换芯型烟嘴市场调查研究报告.docx
- 2025年及未来5年印章防伪项目市场数据调查、监测研究报告.docx
- 2025年中国超小型冷冻修边机市场调查研究报告.docx
最近下载
- 螺纹螺距及牙型角.docx VIP
- 英语单元整体教学设计.ppt VIP
- 2019-2023年初级形态塑料及合成树脂制造行业经济效益分析研究报告.doc
- 2025新教材人教版小学美术三年级上册核心素养教案+单元整体设计.docx
- TP-Link普联TL-NT521 V2.0_万兆 PCIe 网卡详细配置指南 1.0.0.pdf
- 国开电大地域文化(本)(甘肃)第四次形成性考核任务参考答案.doc VIP
- 中央厨房食品安全管理制度.doc VIP
- 第十章 配位平衡与配位滴定法.ppt VIP
- 学堂课程在线科技英语交流(北理)课后作业答案.docx
- 【推荐下载】MIL-PRF-38534G.最新.pdf VIP
原创力文档


文档评论(0)