DM4关联规则.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DM4关联规则.ppt

数据挖掘发现知识的类型 概念描述(广义知识 ) 关联知识 分类知识 预测型知识 偏差型知识 Chapter 4 Association Rule Rough Set 4.1 关联规则概述 4.2 经典的关联规则挖掘算法 4.3 从事物数据库中挖掘多层关联规则 4.1 Summarization of Association Rule Mining 关联规则模式是属于描述型模式,发现关联规则的算法属于无监督学习的方法。 关联规则的意义和度量 关联规则挖掘的主要对象是事务数据库(transaction DB),针对的应用大多是售货数据,一般情况下,一个事务由如下几个部分组成:事务处理时间,一组顾客购买的物品,物品的数量及金额,顾客的标识号。 在事务数据库中,考察一些涉及到许多物品(项)的事务:事务1中出现了物品甲,事务2中出现了物品乙,事务3中同时出现了物品甲和乙,then,事务甲和乙在事务中的出现相互之间是否有一定的规律? 在数据库知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大影响。 例如某超级市场的销售系统,记录了5个顾客的购物清单 有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。 例如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则: 年龄在40岁以上,工作在A区的投保人当中,有45%的人曾经向保险公司索赔过。在这条规则中,“年龄在40岁以上”是物品甲,“工作在A区”是物品乙,“向保险公司索赔过”则是物品丙。 可以看出来,A区可能污染比较严重,环境比较差,导致工作在该区的人健康状况不好,索赔率也相对比较高。 事务与项集 设: R={I1,I2,…,In}是一组项集(项目集,属性集,item set) W是一组与R相关的事务集。W中的每个事务T是一组项(属性)。假设有一个项集A,一个事务T,如果 A∈T,则称事务T支持项集A。 例如: R={I1, I2, I3, I4, I5, I6, I7} 事务集W: 规则表示 由事务与项集表,最终得到的关联规则是如下形式的一种蕴涵式: 描述关联规则属性的四个参数 (1)可信度(condifence),设W中支持物品集A的事务中,有c%的事务同时也支持物品集B,c%称为关联规则的可信度。是对关联规则的准确度的衡量。 (2)支持度(support),设W中有s%的事务同时支持物品集A和B,s%称为关联规则的支持度。是对关联规则重要性(或适用范围)的衡量。支持度说明了这条规则在所有事务中有多大代表性,支持度越大,关联规则越重要,应用越广泛。 (3)期望可信度(expected confidence),设W中有e%的事务支持物品集B,e%称为关联规则的期望可信度。描述的是在没有任何条件影响时,物品集B在所有事务中出现的概率。或者说是在没有物品集A的作用下,物品集B本身的支持度。 (4)作用度(lift),是可信度与期望可信度的比值。描述的是物品集A的出现对物品集B的出现有多大影响。通 过 可 信 度 对 期 望 可 信 度 的 比 值 反 映 了 在 加 入“ 物 品 集A 出 现” 的 这 个 条 件 后, 物 品 集B 的 出 现 概 率 发 生 了 多 大 的 变 化。作用度越大,说明物品集B受物品集A的影响越大。 四个参数的计算公式 Chapter 4 Association Rule Rough Set 4.1 关联规则概述 4.2 经典的关联规则挖掘算法 4.3 从事物数据库中挖掘多层关联规则 4.2 经典的关联规则挖掘算法 关联规则的挖掘就是在事务数据库D中找出具有用户给定的最小支持度min-sup和最小可信度min-conf的关联规则。 1. 关联规则的挖掘过程: (1) 找出存在于事务数据库中的所有频繁项集。 项集X的支持度不小于用户给定的最小支持度,则称x为频繁项集(frequent item set)或大物品集(large item set)。 2. 关联规则方法的分类 3. 经典的关联规则挖掘算法 (单维、单层、布尔型的关联规则挖掘) 3.1 Aprior算法: 寻找频繁集,用k-1

文档评论(0)

克拉钻 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档