网站大量收购闲置独家精品文档,联系QQ:2885784924

4、数据挖掘原语、语言和系统结构.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则元模式——例子 研究AllElectronics的顾客购买习惯,使用如下关联规则: P(X: customer, W) ∧ Q(X, Y) =buys(X, Z) X---customer表的关键字 P,Q---谓词变量 W, Y, Z---对象变量 模板具体化 age(X, “30…39”) ∧ income(X, “40k…49k”)=buys(X, “VCR”) [2.2%, 60%] occupation(x, “student”) ∧ age(X, “20…29”)=buys(X, “computer”) [1.4%, 70%] 背景知识:概念分层 背景知识是关于挖掘领域的知识 概念分层是背景知识的一种,它允许在多个抽象层上发现知识。 概念分层以树形结构的节点集来表示,其中每个节点本身代表一个概念,根节点称为all,而叶节点则对应于维的原始数据值。 概念分层中,自顶向底进行层的标识,即all为0层,向下依次为1,2,3等层 概念分层 ——上卷和下钻 在概念分层中应用上卷操作(概化),使得用户可以使用较高层次概念替代较低层次概念 可以在更有意义,更高、更抽象的层次观察数据,从而使发现的模式更加容易理解。 上卷操作使得数据得到压缩,在这个压缩的数据集上进行挖掘可以减少I/O操作,使得挖掘的效率提高。 概念分层的下钻操作使用较低层概念代替较高层概念,从而使用户能够对过于一般化的数据做更详细分析。 上卷和下钻操作让用户以不同视图观察数据,洞察隐藏的数据联系。 概念分层的自动生成。 在同一个维上,可能根据用户的观点不同,存在多个概念分层。 概念分层的类型 四种常用的概念分层类型 模式分层 E.g., street city province country 集合分组分层 E.g., {20-39} = young, {40-59} = middle_aged 操作导出的分层 Email:abc@cs.zju.edu.cn 基于规则的分层 low_profit_margin (X) = price(X, P1) and cost (X, P2) and (P1 - P2) $50 high_profit_margin (X) = price(X, P1) and cost (X, P2) and (P1 - P2) $250 兴趣度度量 没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。 兴趣度的客观度量方法:根据模式的结构和统计,用一个临界值来判断某个模式是不是用户感兴趣的。 常用的四种兴趣度的客观度量: 简单性 确定性 实用性 新颖性 简单性和确定性 简单性(simplicity) 模式是否容易被人所理解 模式结构的函数(模式的长度、属性的个数、操作符个数)。e.g. 规则长度或者判定树的节点个数。 确定性(certainty) 表示一个模式在多少概率下是有效的。 置信度 (A=B)=(包含A和B的元组值)/(包含A的元组值),e.g. buys(X, “computer)=buys(X, “software”) [30%, 80%] 100%置信度:准确的。 实用性和新颖性 实用性 可以用支持度来进行度量:支持度(A=b) = (包含A和 B的元组数)/(元组总数) e.g. buys(X, “computer)=buys(X, “software”) [30%, 80%] 同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。 新颖性 提供新信息或提高给定模式集性能的模式 通过删除冗余模式来检测新颖性(一个模式已经为另外一个模式所蕴涵) Location(X, “Canada”)=buys(X, “Sony_TV”) [8%, 70%] Location(X, “Vancouver”)=buys(X, “Sony_TV”) [2%, 70%] 发现模式的表示和可视化 以多种形式显示挖掘出来的模式:表、图、判定树、数据立方体等等,以适合不同背景的用户的需要。 使用概念分层,用更有意义,更容易理解的高层概念来替代低层概念;并通过上卷、下钻等操作从不同的抽象级审视所发现的模式。 特定知识类型的表示。 一种数据挖掘查询语言DMQL DMQL的设计目的 支持特别的和交互的数据查询,以便利于灵活和有效的知识发现 提供一种类似于SQL的标准化查询语言 希望达到SQL在关系数据库中的地位 系统开发和演化的基础 方便的信息交互,广泛的技术支持,商业化,广为认可 设计挑战 数据挖掘任务涉及面宽 数据特征、关联规则、分类、演变分析…每种任务都有不同的需求 DMQL的语法 采用与SQL相类似的语法,便于与SQL的集成。 允许在多个抽象层上,由关系数据库和数据仓库进行多类型知识的特殊挖掘

文档评论(0)

xiaohuer + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档