数据挖掘精品讲义.pptVIP

  1. 1、本文档共389页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘精品讲义.ppt

数 据 挖 掘 主讲教师:王灿 E-mail: wcan@ 教科书和参考书 教科书 数据挖掘:概念与技术,Jiawei Han和Micheline Kamber 著,机械工业出版社(2001) 参考书 数据挖掘原理, David Hand, Heikki Mannila和Padhraic Smyth著,机械工业出版社 (2003) 数据挖掘的发展动力 ---需要是发明之母 数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据库技术的演化 (1) 1960s和以前: 文件系统 1970s: 层次数据库和网状数据库 1980s早期: 关系数据模型, 关系数据库管理系统(RDBMS)的实现 数据库技术的演化 (2) 1980s晚期: 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (空间数据库,时序数据库,多媒体数据库等等) 1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统 什么是数据挖掘? 数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD) 知识提炼、 数据/模式分析 数据考古 数据捕捞、信息收获等等。 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘——知识挖掘的核心 KDD的步骤 从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 数据清理: (这个可能要占全过程60%的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估 知识表示 典型数据挖掘系统的体系结构 并非所有的东西都是数据挖掘 基于数据仓库的OLAP系统 OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。 机器学习系统,数据统计分析系统 这些系统所处理的数据容量往往很有限。 信息系统 专注于数据的查询处理。 相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合 在何种数据上进行数据挖掘 关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和历史(legacy)数据库 文本数据库和万维网(WWW) 空间数据库 空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。 常见的空间数据库数据类型 地理信息系统(GIS) 遥感图像数据 医学图像数据 数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索 时间数据库和时序数据库 时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列。 对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。 流数据 与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。 主要应用场合 网络监控 网页点击流 股票市场 流媒体…等等 与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。 多媒体数据库 多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。 对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。 面向对象数据库和对象-关系数据库 面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。 对象-关系数据库基于对象-关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档