数据挖掘原理与算法01改教案分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 事务数据库中的数据挖掘 一个事务数据库是对事务型数据的收集。1993年,当Agrawal等开始讨论数据挖掘问题时,是以购物篮分析(Market Basket Analysis)作为商业应用背景的。 从事务数据库中发现知识是数据挖掘中研究较早但至今仍然很活跃的问题。通过特定的技术对事务数据库进行挖掘,可以获得动态行为所蕴藏的关联规则、分类、聚类以及预测等知识模式。 第三章将详细讲解 * * 关系型数据库中的数据挖掘 关系型数据库是由一系列数据表组成的,相当成熟: 成熟的语义模型(像实体-联系模型);成熟的DBMS(像Oracle) 成熟的查询语言(像SQL语言);可视化的辅助工具和优化软件。 一些更深入和亟待解决的问题: 多维知识挖掘: 传统的事务数据库挖掘所研究的知识一般是单维(Single-Demension)的,但是,在关系型数据库中,多维的知识更普遍和有应用价值。 单维: “购买计算机的人也购买打印机”。 多维: “什么样购买计算机的人也购买打印机的可能性更大?” 。 多表挖掘:关系型数据库是一系列表的集合。因此,多表挖掘是必然的。 数量数据挖掘: 关系型数据库经常包含非离散数量属性(如工资)。 多层知识挖掘:数据及其关联总是可在多个不同的概念层上来理解它。 知识评价问题:对传统的数据挖掘框架的知识评价问题,也是关系型数据库中数据挖掘走向实际应用必须要解决的问题。 约束数据挖掘问题:数据挖掘系统在用户的约束指导下进行,可以提高挖掘效率和准确度。 * * 数据仓库中的数据挖掘 数据仓库中的数据是按着主题来组织的。存储的数据可以从历史的观点提供信息。虽然目前的一些数据仓库辅助工具可以帮助完成数据分析,但是发现蕴藏在数据内部的知识模式及其按知识工程方法来完成高层次的工作仍需要数据挖掘技术支持。 数据挖掘不仅伴随数据仓库而产生,而且随着应用深入产生了许多新的课题。 如果我们把数据挖掘作为高级数据分析手段来看,那么它是伴随数据仓库技术提出并发展起来的。 OLAP尽管在许多方面和数据挖掘是有区别的,但是它们在应用目标上有很大的重合度。 数据挖掘更看中数据分析后所形成的知识表示模式,而OLAP更注重利用多维等高级数据模型实现数据的聚合。从某种意义上讲,我们可以把数据挖掘看作是OLAP的高级形式,与此更接近的名词可能算是OLAM(联机分析挖掘)。 * * 新型数据库中的数据挖掘 对象—关系型数据库(Object-Ralational Database)挖掘; 面向对象数据库的挖掘; 空间数据库的挖掘; 时态数据库的挖掘; 工程数据库(Engineering Database)的挖掘; 多媒体数据库(Multimedia Database)的挖掘; 等等 * * Web数据源中的数据挖掘 随着Internet的广泛使用, Web这一巨大的海洋中蕴藏着极其丰富的有用信息。 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多: 异构数据源环境:Web网站上的信息是异构的: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。 数据的复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。 动态变化的应用环境: Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。 这种高变化也体现在页面的动态链接和随机存取上。 Web上的用户是难以预测的。 Web上的数据环境是高噪音的。 * * Web挖掘的研究主要流派 Web结构挖掘:挖掘Web上的链接结构。 通过Web页面间的链接信息可以识别出权威页面(Authoritative Page)、安全隐患(非法链接)等。 Web使用挖掘:对Web上的Log日志记录的挖掘 Web上的Log日志记录了包括URL请求、IP地址以及时间等的访问信息。 分析和发现Log日志中蕴藏的规律可以帮助我们识别潜在的客户、跟踪Web服务的质量以及侦探非法访问的隐患等。 Web内容挖掘: Web的内容是丰富的,而且构成成分是复杂的(无结构的、半结构的等),对内容的分析是项重要而艰巨的工作。 Web的内容主要是包含文本、声音、图片等的文档信息。 文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等相关领域的研究。 多媒体信息挖掘技术。 * * 第一章 绪论 内容提要 数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题 数据挖掘常用的

文档评论(0)

w5544434 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档