数据仓库与数据挖掘课件[zdw]wyg finishing 35.docVIP

数据仓库与数据挖掘课件[zdw]wyg finishing 35.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘 第1章绪论【4学时】 为什么要进行数据挖掘? 什么是数据挖掘? 数据挖掘中的多维数据 在何种数据上进行挖掘? 什么是数据仓库? 数据挖掘的功能? 数据 挖掘常用技术 数据挖掘的应用实例 数据挖掘的过程 总结 为什么要进行数据挖掘? 数据爆炸 (数据被收集: 自动收集数据技术、 数据库技术 海量数据的主要数据源: (商业数据:电子商务、股票、Web、银行….. ( 科学:生物信息、基因数据、……. ( 社会与个人:新闻,数字摄影,…… 拥有丰富的数据,但缺乏有用的知识。 数据库技术的演化 1960s 年以前:文件系统 1970s : 层次数据库和网状数据库 1980s 早期: 关系数据模型,关系数据库管理系 统( RDBMS 1980s 晚期: 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等 ) 面向应用的数据库系统( spatial 数据库,时序数据库,多媒体数据库等等) 1990s : 2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML 什么是数据挖掘?数据挖掘的定义 数据挖掘(数据中挖掘知识) (从大量数据中挖掘那些令人感兴趣的、隐含的、事先未知的、潜在有用的知识的过程。 ( 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) ( 数据库中的知识挖掘( KDD ) (知识提炼 ( 数据/模式分析 数据考古 数据捕捞、信息收获等等。 KDD 从 KDD 对数据挖掘的定义可以看到:当前研究领域对数据挖掘的狭义和广义认识: 1 .数据清理:(这个可能要占全过程的 60%的工作量) 2 .数据集成 3 .数据选择 4 .数据变换 5 .数据挖掘(选择适当的算法来找到感兴趣的模式) 6 .模式评估 7 .知识表示 在何种数据上进行数据挖掘 关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 (时间数据库和时间序列数据库 (流数据 (多媒体数据库 (面向对象数据库和对象一关系数据库 (异种数据库和遗产(L egacy )数据库 (文本数据库和万维网(W WW ) 什么是数据仓库(DW)? 数据仓库的定义很多,很难有一种严格的定义: (是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 (为统一的历史数据分析提供坚实的平台,对信息处理提供支持。 “数据仓库是面向主题的、集成的、非易丢失的、随时间变化(不同时间)的数据集合,用以支持管理人员的决策”。 以保险公司为例: 数据仓库----面向主题 数据仓库----集成性 数据仓库-----非易失性(不可更新性) 数据仓库----随时间变化 数据仓库与数据挖掘的关系 数据仓库系统的数据可以作为数据挖掘的数据源 ( 数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。 数据挖掘的数据源不一定必须是数据仓库系统 (可以是任何数据文件或格式,但必须事先进行数据预处理, 处理成适合数据挖掘的数据。 数据挖掘的功能? 数据挖掘的基本目标:预测、描述 ( 描述性数据挖掘 (预测性数据挖掘 通常用户并不知道在数据中能挖掘出什么东西,我们会在数据挖掘中应用些常用的数据挖掘功能,挖掘出一些模式或知识,包括: (概念描述:特性化和区分 (关联分析 (分类和预测 (聚类分析 (孤立点分析 (趋势和演变分析 (偏差分析 1.概念描述:对某类对象的内涵进行描述,并概括这类对象的有关特征。 (1)特征性描述 (2)区别性描述 特征化:提供给定数据集的简洁汇总。 例:对某公司的“大客户”(年消费额$10000以上)的特征化描述: 40 一 50 岁,有固定职业,信誉良好等等。 区分:提供两个或多个数据集的比较描述。 2.关联分析 若两个或多个变量间存在着某种规律性,就称为关联。关联分析的目的就是找出数据中隐藏的关联网。 关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的变量间发现有趣的、频繁出现的模式、关联和相关性。

文档评论(0)

***** + 关注
实名认证
文档贡献者

本账号下所有文档分享可拿50%收益 欢迎分享

1亿VIP精品文档

相关文档