- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6_关联讲义
图6-30 由于p的大部分事务不包含q,所以由模式{p,q}导出的规则{p} ?{q}的置信度很低。相反,由{r,q}导出的规则{r} ?{q}却有很高的置信度。 这一观察暗示,可以通过检查由给定项集提取的最低置信度规则来检测交叉支持模式。 所以,当我们保证h置信度值超过hc时,就可以消除交叉支持模式。 除可以消除交叉支持模式外,h置信度还具有反单调性的特点,所以可以直接并入挖掘算法。 此外,h置信度能够确保项集中的项之间是强关联的。即超团模式( hyperclique pattern) 挖掘关联模式的研究问题 * 2^5=32 FP增长(FP-growth)算法 FP增长(FP-growth)算法 FP增长(FP-growth)算法 关联模式的评估(Pattern Evaluation) 关联分析算法具有产生大量模式的潜在能力 其中许多是不感兴趣的和冗余的 如果{A,B,C}-{D}和{A,B}-{D}具有同样的支持度和置信度,则产生了冗余 在原先的模式评估中,仅采用支持度和置信度作为评价准则 感兴趣度量可以用来删除和排序模式 关联模式的评估(Pattern Evaluation) 客观兴趣度度量 通过统计论据建立 主观兴趣度度量 需要领域专家的大量先验知识 {黄油}-{面包}不是有趣的,即使它具有很高的支持度和置信度 关联模式的评估(Pattern Evaluation) 关联模式的评估(Pattern Evaluation) 可视化 允许领域专家解释和检验被发现的模式,与数据挖掘系统交互 基于模板的方法 允许用户限制挖掘算法提取的模式类型,只提交满足用户指定的模板要求的规则 主观兴趣度度量 基于领域信息来定义 兴趣度客观度量(objective interestingness measure) 客观兴趣度度量使用从数据推导出的统计量来确定模式是否是有趣的。 客观兴趣度度量的例子包括支持度、置信度、相关性。 给定一个规则 X ? Y, 我们可以构建一个相依表(contingency table). Y Y X f11 f10 f1+ X f01 f00 fo+ f+1 f+0 |T| Contingency table for X ? Y 用来定义多种度量 support, confidence, lift, Gini, J-measure… 支持度-置信度框架的局限性 Coffee Coffee Tea 150 50 200 Tea 650 150 800 800 200 1000 Association Rule: Tea →Coffee Confidence= P(Coffee|Tea) = 0.75 but P(Coffee) = 0.8 ?虽然置信度很高,但却是误导 置信度的缺陷在于忽略了规则后件中项集的支持度 由于支持度-置信度框架的局限性,各种客观度量已经用来评估关联模式。下面,简略介绍这些度量并解释它们的优点和局限性。 兴趣因子 相关分析 IS度量 兴趣因子 茶和咖啡的例子表明,由于置信度度量忽略了规则后件中出现的项集的支持度,高置信度的规则有时存在误导。 解决这个问题的一种方法是使用称作提升度(lift)的度量: 它计算规则置信度和规则后件中项集的支持度之间的比率 对于二元变量,提升度等价于另一种称作兴趣因子 (interest factor)的客观度量,其定义如下: 对于相互独立的两个变量,I(A,B)=1。如果A和B是正相关的,则I(A,B)1。对于表6-8中的例子,I=0.15/(0.2*0.8)=0.9375, 这表明存在负相关。 兴趣因子的局限性 表6-9显示了两个词{p,q}和{r,s}出现的频率。{p,q}和{r,s}的兴趣因子分别为1.02和4.08. 这表明虽然p和q同时出现在88%的文档中,但是它们的兴趣因子接近于1,表明二者是相互独立的。另一方面,{r,s}的兴趣因子比{p,q}的高,尽管r和s很少同时出现在同一个文档中。 这种情况下,置信度可能是一个更好的选择,因为置信度表明p和q之间的关联(94.6%)远远强于r和s之间的关联(28.6%). 表6-9 p p q 880 50 930 q 50 20 70 930 70 1000 r r s 20 50 70 s 50 880 930 70 930 1000 相
文档评论(0)