- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库设计(续) 建立和使用数据仓库是一项复杂的任务, 需要商务技巧、技术技巧和程序管理技巧 商务技巧 建立数据仓库涉及 理解系统如何存储和管理数据; 如何构造一个提取程序, 将数据由操作数据库转换到数据仓库; 如何构造一个仓库刷新软件, 合理地保持数据仓库中的数据相对于操作数据库中数据的当前性 使用数据仓库涉及 理解它所包含的数据的含义 理解商务需求并将它转换成数据仓库查询 精品文档 数据仓库设计(续) 技术技巧 数据分析需要 理解如何由定量信息作出估价 如何根据数据仓库中的历史信息得到的结论推导事实 这些技巧包括发现模式和趋势, 根据历史推断趋势和发现异常或模式漂移, 并根据这种分析提出相应的管理建议的能力 程序管理技巧 涉及与许多技术人员、经销商和最终用户交往, 以便以及时和合算的方式提交结果 精品文档 数据仓库设计(续) 数据仓库可以使用自顶向下方法、自底向上方法, 或二者结合的混合方法设计 自顶向下方法 由总体设计和规划开始 当技术成熟并且已经掌握, 对必须解决的商务问题清楚并且已经很好理解时, 这种方法是有用的 自底向上方法 以实验和原型开始 在商务建模和技术开发的早期阶段, 这种方法是有用的 混合方法 既能利用自顶向下方法的规划和战略特点, 又能保持象自底向上方法一样快速实现和立即应用 精品文档 数据仓库设计(续) 典型的数据仓库设计过程 选取待建模的商务处理 例如, 订单、发票、出货、库存、记帐管理、销售或一般分类帐 选用数据仓库模型 vs. 选择数据集市 选取商务处理的粒度 该粒度是基本的, 在事实表中是数据的原子级 例如, 单个事务、一天的快照等 选取用于每个事实表记录的维 典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态 选取将安放在事实表中的度量 典型的度量是可加的数值量, 如dollars_sold和units_sold 精品文档 人工智能 ——数据挖掘之数据仓库 精品文档 目 录 一、什么是数据挖掘? 二、什么是数据仓库?数据仓库的特征。 三、数据仓库设计 四、从数据仓库到数据挖掘 精品文档 * 数据挖掘:概念与技术 * 什么是数据挖掘 数据挖掘 (数据库中知识发现): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式 数据挖掘: 用词不当? 其它名称: 数据库中知识发现 (Knowledge discovery in databases, KDD) 知识提取 (knowledge extraction) 数据/模式分析 (data/pattern analysis) 数据考古 (data archeology) 数据捕捞 (data dredging) 信息收获 (information harvesting) 商务智能 (business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统 或小型 机器学习(ML)/统计程序 精品文档 * 数据挖掘:概念与技术 * 数据挖掘:在数据中发现知识 /模式 精品文档 * 数据挖掘:概念与技术 * 数据挖掘过程 数据库 文件 数据仓库 清理与集成 选择与变换 数据挖掘 模式评估 知识 精品文档 什么是数据仓库 用不同的方法定义, 但不是严格的 是一个决策支持数据库, 它与组织的操作数据库分离地维护 数据仓库系统允许将各种应用系统集成在一起, 通过为统一的历史数据分析提供坚实的平台, 支持信息处理. 数据仓库是一种信息环境, 它将各种应用系统集成在一起, 提供了企业信息的完整概括, 为灵活的、交互的数据分析提供坚实的平台, 为决策提供支持. W. H. Inmon的定义: 数据仓库是 面向主题的(subject-oriented), 集成的, 时变的, 和非易失的数据集合, 支持管理决策过程 建立数据仓库(Data warehousing): 构造和使用数据仓库的过程 精品文档 数据仓库的特征 面向主题的 (subject-oriented) 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织 数据仓库关注决策者的数据建模与分析, 而不是集中于组织机构的日常操作和事务处理. 数据仓库排除对于决策无用的数据, 提供特定主题的简明视图 集成的 (integrated) 通常, 构造数据仓库是将多个异种数据源, 如关系数据库、一般文件和联机事务处理记录, 集成在一起 使用数据清理和数据集成技术, 确保命名约定、编关键字结构、属性度量等的一致性 当数据装入数据仓库时, 数据将被转换 精品文档 数据仓库的特征(续) 时变的 (time-variant) 数据存储从历史的
文档评论(0)