1.ppt-上海对外经贸大学精品课程.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.ppt-上海对外经贸大学精品课程

(2)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成。 对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。 将原始数据结构做一个从面向应用到面向主题的大转变。 (3)数据仓库是稳定的 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。 (4)数据仓库是随时间变化的 数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。 而数据库只包含当前数据,即存取某一时间的正确的有效的数据。 (5)数据仓库的数据量很大 大型DW的数据是一个TB(1000GB)级数据量(一般为10GB级DW,相当于一般数据库100MB的100倍) (6)数据仓库软、硬件要求较高 需要一个巨大的硬件平台 需要一个并行的数据库系统 1.2数据挖掘的兴起 1.2.1 从机器学习到数据挖掘 1.2.2 数据挖掘含义 1.2.3 数据挖掘与OLAP的比较 1.2.4 数据挖掘与统计学 1.2.1 从机器学习到数据挖掘 学习是人类具有的智能行为,主要在于获取知识。 机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。 机器学习是人工智能领域中的重要研究方向。 20世纪60年代开始了机器学习的研究。 (1) 1980年在美国召开了第一届国际机器学习研讨会; 明确了机器学习是人工智能的重要研究方向 (2) 1989年8月于美国底特律市召开的第一届知识发现(KDD)国 际学术会议; 首次提出知识发现概念 (3) 1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议; 首次提出数据挖掘概念 (4) 我国于1987年召开了第一届全国机器学习研讨会。 1.2.2数据挖掘含义 知识发现(KDD):从数据中发现有用知识的整个过程。 数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。 如在人类数据库中挖掘知识为: (头发=黑色)∨(眼睛=黑色)→亚洲人 该知识覆盖了所有亚州人的记录。 数据挖掘 描述 预测 统计回归 关联规则 决策树 可视化 聚类 顺序关联 汇总 神经网络 分类 数据挖掘的分类 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树) 收入大于5万元/年 是 否 有无储蓄帐户 是否房主 是 是 否 否 批准 不批准 批准 数据挖掘的典型结果——金融 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络) 输 入 流失概率 (0.87) 输 出 男 29 3000元/月 神州行 130元/月 ………… 数据挖掘的典型结果——电信 问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图) 数据挖掘的典型结果——零售 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络) 数据挖掘的典型结果——政府 1.2.3数据挖掘与OLAP的比较 1. OLAP的多维分析 OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。 2. 数据挖掘 数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。 1.2.4 数据挖掘与统计学 统计学与国家政治有紧密的关系。 支配着社会现象的法则和方法是概率论。 通过对全部对象(总体)进行调查,为制定计划和决策提供依据。 统计学中应用于数据挖掘的内容 (1)常用统计 (2)相关分析 (3)回归分析 (4)假设检验 (5)聚类分析 (6)判别分析 (7) 主成份分析 统计学与数据挖掘的比较 统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。 数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。 统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。 1.3 数据仓库和数据挖掘的结合 1.3.1 数据仓库和数据挖掘的区别与联系 1.3.2 基于数据仓库的决策支持系统 1.3.3数据仓库与商业智能 1.3.1 数据仓库和数据挖掘的区别与联系 1. 数据仓库与数据挖掘的区别 2.数据仓库与数据挖掘的关系 3.数据仓库中

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档