网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘的概念与技术-北大ppt模版课件.ppt

  1. 1、本文档共88页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的概念与技术-北大ppt模版课件

* * 挖掘方法与用户交互问题 不同的用户可能对不同类型的知识感兴趣 数据挖掘系统应当覆盖广谱的数据分析和知识发现任务,包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析等 这些任务可能以不同的方式使用相同的数据库 避免开发单一的挖掘应用,需设计良好的系统可扩展性 多个抽象层的交互知识挖掘问题 由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的 对于包含大量数据的数据库,应当使用适当的选样技术,进行交互式数据探查 交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求 特殊地,类似于立方体上的OLAP操作,应当通过交互地在数据空间和知识空间下钻、上卷和转轴,挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式 纳入领域知识的问题 结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式,在不同的抽象层表示 关于数据库的领域知识,如完整性限制和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现的模式的兴趣度 ?挖掘结果的表示问题 发现的知识应当用高级语言、可视化表示形式、或其它表示形式表示,使得知识易于理解,能够直接被人使用 如果数据挖掘系统是交互的,这一点尤为重要 要求系统采用有表达能力的知识表示技术,如树、表、图、图表、交叉表、矩阵或曲线 处理噪音和不完全数据问题 存放在数据库中数据可能反映噪音、例外情况、或不完全的数据对象 这些对象可能搞乱分析过程,导致数据与所构造的知识模型过分适应 其结果是,所发现的模式的精确性可能很差。 需要处理数据噪音的数据清理方法和数据分析方法,以及发现和分析例外情况的孤立点挖掘方法 模式评估——兴趣度问题 数据挖掘系统可能发现数以千计的模式 对于给定的用户,许多模式不是有益的,它们表示平凡知识或缺乏新颖性 使用兴趣度度量,指导发现过程和压缩搜索空间,是有效筛选有益模式的方法 ?算法的有效性和可伸缩性问题 为了有效地从数据库中大量数据提取信息,数据挖掘算法必须是有效的和可伸缩的 对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的 从数据库角度,有效性和可伸缩性是数据挖掘系统实现的关键问题 上面讨论的挖掘技术和用户交互的大多数问题,也必须考虑有效性和可伸缩性 引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术 主要内容 数据挖掘新技术 数据流挖掘技术 基于数据立方体的挖掘 时空数据挖掘技术 移动对象挖掘技术 Web挖掘技术 …… 数据流问题的提出 电信领域:电话呼叫记录分析、网络管理数据分析 金融领域:信用卡交易分析、证券交易分析 网络监测和流量控制 Web日志与点击流分析 能源供给部门的能源供给分析 天气预报、地震预测 传感网络监控 ? ? ? 数据流的定义与特点 数据流:以顺序(ordered)、快速、随时间变化、可能无法预测并且数量巨大的流的形式连续到达的数据序列: 特点 大量、连续到达的数据,可能无限 快速变化,需要快速、实时响应 单次线性扫描算法,随机访问代价太高 只能存储数据的汇总或提纲(synopsis) 低层次、多维数据,需要多层次、多维处理 数据流研究中的主要问题 数据流查询技术 当前焦点,主要是连续查询(continuous query) 查询语言、查询计划、近似查询回答技术等 数据流分析技术 传统的统计分析,已比较成熟 结合数据仓库与OLAP技术的多维多层次分析 数据流挖掘 数据流管理系统 查询处理、资源管理、存储实现等 DBMS与DSMS的比较 DBMS DSMS 持久关系 临时数据流 一次查询(one-time query) 连续查询(continuous query) 随机访问 顺序访问(sequential access) “极大的”(unbounded)磁盘存储 有限的(bounded)主存 仅是当前状态事务 历史数据是重要的 没有实时服务 实时服务需求 相当低的更新率 可能多GB的到达率 任何粒度层次的数据 精粒度层次的数据 采取精确数据形式 数据是不精确的 准确的查询回答 近似回答 通过查询处理器、物理数据库设计决定访问计划 不可预测的、易变的数据到达情况和特征 数据流处理的挑战 多个、连续、快速、时变、有序的数据流 主存计算 查询经常是连续的 数据到来时的连续估计 随时间更新的查询结果 查询经常是复杂的 超越了“一次一成员”(element-at-a-time)的处理方式 超越了“一次-个流”(stream-at-a-time)的处理方式 超越了关系查询(科学数据库、数据挖掘、O

您可能关注的文档

文档评论(0)

aena45 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档