2-关联规则.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策量化技术 二、关联规则挖掘 总目录 一、数据挖掘概述 二、关联规则挖掘 三、数据分类 四、聚类分析 五、序列模式挖掘 六、Web挖掘 二、关联规则挖掘 1、关联规则挖掘的概念 2、二值型关联规则挖掘 3、并行关联规则挖掘 4、数值型关联规则挖掘 5、多层次关联规则挖掘 6、关联规则的增量挖掘 什么是关联规则? 关联规则:描述数据库中各数据项之间存在的潜在关系,形式为X ? Y,其中X ? I,Y ? I,且X ? Y=?,X称为规则头(antecedent),Y称为规则尾(consequent)。 项集之间的关联表示如果X出现在一条交易中,那么Y在这条交易中同时出现的可能性比较高。 关联规则就是希望发现事务数据库中不同商品(项)之间的关联,反映顾客的购买行为模式,比如购买某一商品对购买其他商品的影响。 例如,80%的顾客如果买了牛奶,通常也会买面包。 应用 发现所有* ?面包的关联规则,促进面包的销售 发现所有牛奶 ? *的关联规则,了解终止牛奶的销售的影响 发现商场里货架A和货架B上商品之间的关联规则,调整商品的布置,提高销售量 关联规则的基本概念 Given: (1)事务/交易数据库 (2)顾客每次购买的商品构成一条事务 (3)每种商品是一个数据项(简称项) I={ii,i2,…,im}是全体数据项的集合 数据项集 (Itemset),简称为项集是由数据项构成的非空集合。项集X包含的元素个数称为项集的长度,长度为k的项集称为k阶项集(k_itemset) D为事务数据库,每个事务T有唯一的TID标识,对应一个项集T,有T ? I。 交易T包含项集X 当且仅当 X ? T 事务(交易)数据库的例子 支持数(度)、支持阈值与大项集 项集X在事务集合D中的支持数(support count)是D中包含X的事务数,记作X.sup或者support(X)。 X在D中的支持度(support)就是X的支持数与D的总事务数之比,从统计的角度看,X的支持度就是X在D中出现的概率,用符号Pr(X)表示。 支持阈值表示项集在统计意义上的最低重要性,用符号s表示。如果事务数据库的事务量是固定的,常用最小支持数(minsup=s?|D|,其中|D|是总事务数)代替支持阈值。 事先给定一个minsup(或s),如果项集X的支持数X.sup?minsup(或项集X的支持度Pr(X)?s),则X称为大项集(large itemset) 或者频繁项集(frequent itemset)。 例子 置信度与置信阈值 规则X ? Y的支持度定义为Pr (X?Y),表示X,Y同时出现的可能性。 规则X ? Y的置信度(confidence)定义为Pr(X?Y)/Pr(X)=support(X?Y)/support(X),表示D中包含X的事务同时也包含Y的可能性,记为conf(X?Y)。由于这个数值等于在X出现的条件下Y也出现的概率,因此规则的置信度也可以用条件概率符号Pr(Y|X)表示。 置信阈值表示规则在统计意义上应该满足的最低置信度,用符号minconf表示。 关联规则挖掘 X ? Y是关联规则,给定支持阈值、置信阈值 支持度(support), s:包含{X, Y}的概率 置信度(confidence), c :一条包含{X}的交易也同时包含Y的条件概率 支持度和置信度不小于给定阈值 强关联规则: 对于给定的支持阈值和置信阈值,发现那些置信度和支持度都大于或等于相应阈值的规则称为强关联规则。 关联规则挖掘示例 规则 A ? C: support = support({A, C}) = 50% confidence = support({A, C})/support({A}) = 66.6% 规则 C ? A: support = support({A, C}) = 50% confidence = support({A, C})/support({C}) = 100% 关联规则的类型 二值型关联规则 vs 数值型(量化)关联规则 二值型关联规则处理的数据都是离散的、分类化的,用来显示这些变量之间的关系。 buys(x, “面包”) ? buys(x, “牛奶”) [0.5%, 60%] buys(x, “SQLServer”) ^ buys(x, “DMBook”) ? buys(x, “DBMiner”) [0.2%, 60%] 在关联规则挖掘中加入数量信息以及其它的交易信息(如商品的单价、一次购买的数量和总价等),得到的规则称为数值型关联规则;也可将关联规则扩展到关系数据库中,表示属性值之间的关联关系。 age(x, “30..39”) ^ income(x, “42..48K”) ? buys(x, “PC”)

文档评论(0)

智慧书苑 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档