数据挖掘1、序论要点解析.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
能够产生所有有趣模式并且仅产生有趣模式吗? 找出所有有趣的模式: 数据挖掘算法的完全性问题 数据挖掘系统能够产生所有有趣的模式吗? 试探搜索 vs.穷举搜索 关联 vs. 分类 vs. 聚类 只搜索有趣的模式: 数据挖掘算法的最优化问题 数据挖掘系统可以仅仅发现有趣的模式吗? 方法 首先生成所有模式然后过滤那些无趣的. 仅仅生成有趣的模式—挖掘查询优化 数据挖掘:多个学科的融合 数据挖掘 数据库系统 统计学 其他学科 算法 机器学习 可视化 数据挖掘系统的分类 (1) 数据挖掘的多学科融合的特性,决定了数据挖掘的研究将产生种类繁多的数据挖掘系统。 根据所挖掘的数据库分类 关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时序数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,WWW 数据挖掘系统的分类 (2) 根据挖掘的知识类型 特征分析, 区分, 关联分析, 分类聚类, 孤立点分析/演变分析, 偏差分析等等. 多种方法的集成和多层机挖掘 根据挖掘所用的技术 面向数据库的挖掘、数据仓库 、OLAP、机器学习、统计学、可视化等等. 根据挖掘所用的应用 金融,电信,银行, 欺诈分析, DNA分析,股票市场, Web挖掘等等. 数据挖掘的主要问题 (1) 数据挖掘是多个学科融合,但本课程所关注的是:海量数据的挖掘的效率和可扩展性 本课程中所要涵盖的主要数据挖掘问题包括: 挖掘方法问题和用户交互问题 在数据库中挖掘不同类型的知识 在不同抽象层上的交互式知识挖掘 背景知识的合并 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和可视化 处理噪声何不完全数据 模式评估: 兴趣度问题 数据挖掘的主要问题 (2) 性能问题 数据挖掘算法的效率和可扩展性(scalability) (什么是可扩展性?) 并行,分布式和增量挖掘算法 (数据的分块挖掘) 其他和多样化的数据库类型相关的问题 关系型和复杂数据类型的处理 为特定的数据类型构建特定的数据挖掘系统 从异构数据库中挖掘 WEB数据挖掘 数 据 挖 掘 主讲教师:刘瑞 E-mail: lr@ 教科书和参考书 教科书 数据挖掘:概念与技术,Jiawei Han和Micheline Kamber 著,机械工业出版社(2001) 中文版 英文影 印版 数据挖掘的发展动力 ---需要是发明之母 数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据库技术的演化 (1) 1960s和以前: 文件系统 1970s: 层次数据库和网状数据库 1980s早期: 关系数据模型, 关系数据库管理系统(RDBMS)的实现 数据库技术的演化 (2) 1980s晚期: 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (空间数据库,时序数据库,多媒体数据库等等) 1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统 什么是数据挖掘? 数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD) 知识提炼、 数据/模式分析 数据考古 数据捕捞、信息收获等等。 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘——知识挖掘的核心 数据清理 数据集成 数据库 数据仓库 任务相关数据 选择 数据挖掘 模式评估 KDD的步骤 从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 数据清理: (这个可能要占全过程60%的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估 知识表示 典型数据挖掘系统的体系结构 数据仓库 数据清洗 过滤 数据库 数据库或数据仓库服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 数据集成 并非所有的东西都是数据挖掘 基于数据仓库的OLAP系统 OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。 机器学习系统,数据统计分析系统 这些系统所处理的数据容量往往很有限。 信息系统 专注于数据的查询处理。 相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合 在何种数据上进行数据挖

文档评论(0)

挺进公司 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档