[工学]1-数据挖掘概述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[工学]1-数据挖掘概述

决策量化技术 数据挖掘技术及应用 总目录 一、数据挖掘概述 二、关联规则挖掘 三、数据分类 四、聚类分析 五、序列模式挖掘 六、Web挖掘 七、数据挖掘系统 一、数据挖掘概述 随着全球信息化的发展,自动数据采集工具和成熟的数据库技术导致海洋数据存储在数据库中,从海量数据中提取可信的、新颖的、有效的并能被人们理解的知识是非常重要的,所以数据挖掘引起了信息产业的极大关注。涉及领域广(企业管理、产品控制、市场分析、工程设计和科学研究等)。 2. 数据库技术的演化 数据产生和搜集 数据管理:(包括数据存储和检索,数据库事务处理) 数据分析和理解:(涉及数据仓库和数据挖掘) 3. 数据坟墓 数据富裕,知识贫乏 大量数据背后隐藏着重要的知识 需要有效的数据挖掘工具支持 啤酒与尿布的故事 全球最大的零售商沃尔玛(Wal-Mart)公司利用数据挖掘工具,对数据库中的大量数据进行分析后意外发现,跟尿布一起购买最多的商品竟然包括啤酒。为什么两件风马牛不相及的商品会被人一起购买?经过分析发现:原来,太太们常叮嘱她们的丈夫,下班后为小孩买尿布,而丈夫们在买尿布后又随手带回几瓶啤酒。既然尿布与啤酒一起购买的机会最多,商店就将它们摆放在一起,结果,尿布与啤酒的销售量双双增长。 什么是数据挖掘? 数据挖掘(Data Mining) 数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的、对决策有潜在价值的知识和规则。这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供决策依据 其他名称 数据采掘,数据开采,数据开发,数据采矿,数据库中的知识发现(KDD),知识抽取,数据考古 什么不是数据挖掘? 查询处理 专家系统或小规模的统计规划 数据挖掘:一个KDD步骤 数据挖掘是KDD的关键步骤 数据挖掘的特点 处理的数据规模十分巨大,否则单纯使用统计方法处理数据就足够。 查询一般是决策制定者(用户)提出的即席随机查询,往往不能形成精确的查询要求,要靠数据挖掘技术寻找可能感兴趣的东西,也就是说挖掘出来的知识不能预知。 数据挖掘中,规则的发现基于大样本的统计规律,当置信度达到某一阈值时,就可以认为规则成立。 数据挖掘既要担负发现潜在规则的任务,还要管理和维护规则。在一些应用中,由于数据变化迅速,规则只能反映当前数据库的特征,随着不断地加入新数据,规则要更新,要求在新数据的基础上修正原来的规则。 数据挖掘的支撑技术 数据挖掘的支撑技术 统计学 首先建立数学模型或统计学模型,然后根据模型提取出有关的知识。 机器学习 利用人类的认知模型模仿人类的学习方法从数据中提取知识 神经网络,决策树,遗传算法,规则推理,模糊逻辑 数据库技术 利用现有的数据库方法,提取数据的特征知识 可视化方法 采用直观的图形方法表示信息模式,数据的关联,变化趋势等 其它方法 人工智能技术、信息技术等 混合方法 将各种方法结合起来,取长补短 在何种数据上进行数据挖掘 1. 多种数据库和DM的关系 多种数据库是DM能够处理的对象。正因为有着这么庞大而实际有用的数据作为数据挖掘的物质基础,研究数据挖掘才有了现实的意义。 2. 关系数据库 DBMS--一套用于管理和访问数据的软件程序,建立数据库结构定义、数据存储、并发、共享、分布式访问、保证信息存储一致性和安全性的机制。 数据库(Database)由一系列表(Table)组成 Table是一个行列二维表结构。 数据挖掘在关系数据库中的作用 用SQL可以做什么? –上个季度卖出了什么商品? –给我列出上月每个部门的总销售量 –哪个销售员卖出的商品最多 Data Mining又能做什么? –预测新顾客的信誉风险 –检查商品销售变差的原因 数据仓库 数据仓库(Data Warehouse,DW)是在数据库的基础上提出来的一种新的数据存储和处理方法。 数据仓库最根本的特点是物理地存放数据,而这些数据并非是最新的,专用的;而是来源于其他数据库。数据仓库的建立并不是要取代原有的数据库,而是建立一个更全面,更完善的信息应用基础,用于支持高层决策分析。 数据仓库用数据库管理系统来管理其中的数据。 数据仓库的特点 面向主题 集成性 稳定性 时变性 对象关系数据库 结合了对象数据库和关系数据库的特点 提供了能处理复杂对象的丰富的数据类型和查询语言 与关系数据库对比,不同之处是能处理复杂数据类型、类分层和对象继承 空间数据库 存储与空间相关的信息,包括地图、卫星图象等。 用途 –森林和生态环境计划 –提供公共设施(电话、电缆、管道、污水排放)信息 data mining作用 –回答某一区域

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档