- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7.7 关联评估 7.7.1 兴趣度客观度量 7.7 关联评估 7.7.1 兴趣度客观度量 客观度量的一致性。给定各种各样的可用度量后,产生的一个合理问题是:当这些度量应用到一组关联模式时是否会产生类似的有序结果。如果这些度量是一致的,那么就可以选择它们中的任意一个作为评估度量。否则的话,为了确定哪个度量更适合分析某个特定类型的模式,了解这些度量之间的不同点是非常重要的。 7.7 关联评估 7.7.1 兴趣度客观度量 7.7 关联评估 7.7.1 兴趣度客观度量 缩放性。客观度量M在行/列缩放操作下是不变的,如果M(T)=M(T),其中T是频度计数为[f11;f10;f01;f00]的列联表。T是频度计数为[k1k3f11;k2k3f10;k1k4f01;k2k4f00]的列联表,而k1,k2,k3,k4是正常量。 7.7 关联评估 7.7.2 多个二元变量的度量 使用多维列联表,可以扩展到多个变量。a,b和c的3维列联表如表所示。表中每个表目fijk都表示包含项a,b和c的某种组合的事务数。比如,f101表示包含a和c但不包含b的事务数。另一方面,边缘频率f1+1表示包含项a和c而不管是否包含项b的事务数。 7.7 关联评估 7.7.3 倾斜支持度分布的影响 许多关联分析算法的性能受输入数据的性质的影响。例如,Apriori算法的计算复杂度依赖于数据中的项数和事务的平均长度等性质。具有倾斜支持度分布的数据集,其中大多数项具有较低或中等频率,但是少数项具有很高的频率。 7.7 关联评估 7.7.3 倾斜支持度分布的影响 上图显示了一个呈现这种分布的实际数据集的例子。该数据取自PUMS人口普查数据。它包含49046条记录和2113个非对称的二元变量。尽管数据集中超过80%的项的支持度小于1%,但是少数项的支持度大于90%。为了解释倾斜支持度分布对频繁项集挖掘的影响,将所有的项按照支持度分为3组,G1,G2和G3。表中显示了每一组中包含项的数量。 7.7 关联评估 7.7.3 倾斜支持度分布的影响 选择合适的支持度阈值较难: 如果阈值太高,则可能遗漏涉及G1中较低支持度项的模式。如:在购物篮数据中,顾客很少买的昂贵商品:珠宝等。 如果阈值太低,已有的关联分析算法所需的计算量和内存需求都将显著增加;提取出的关联模式的数量大幅增加;可能提取出大量的高频率项(如“牛奶”)与低频率项(如“鱼子酱”)相关联的虚假模式,这样的模式称为交叉支持(cross-support)模式。 7.7 关联评估 7.7.3 倾斜支持度分布的影响 交叉支持模式是一个项集X={i1, i2, …, ik},它的支持度比率: 这一比率小于用户指定的阈值hc 。 假设牛奶的支持度是70%,糖的支持度是10%,鱼子酱的支持度是0.04%。给定hc=0.01,频繁项集{牛奶,糖,鱼子酱}是一个交叉支持模式,因为它的支持度比率为: 7.7 关联评估 7.7.3 倾斜支持度分布的影响 现有的度量(如支持度和置信度),都不足以消除交叉支持模式。如图所示,当hc=0.3时,项集{p,q} 、 {p,r}和{p,q,r}是交叉支持模式,因为它们的支持度比率为0.2,小于阈值0.3 。虽然可以采用较高的支持度阈值(如20%)来消除交叉支持模式,但是,这样却损失了其他有趣的模式,如强关联项集{q,r} ,它的支持度为16.7%。 7.7 关联评估 7.7.3 倾斜支持度分布的影响 7.7 关联评估 7.7.3 倾斜支持度分布的影响 通过确保模式的h置信度值超过hc就可以消除交叉支持模式。使用h置信度的好处不仅是消除交叉支持模式,这种度量也是反单调的,即: 从而可以将它直接并入挖掘算法。此外,h置信度能够确保项集中的项之间是强关联的,即超团模式(hyperclique pattern)。 7.4 频繁项集的紧凑表示 7.4.2 闭频繁项集 闭项集:项集X是闭的,如果它的直接超集都不具有和它相同的支持度计数。 闭频繁项集:一个项集是频繁闭项集,如果它是闭的,并且它的支持度大于或等于最小支持度阈值。 7.4 频繁项集的紧凑表示 7.4.2 闭频繁项集 闭频繁项集示例如上图。为了更好地解释每个项集的支持度计数,格中每个结点(项集)都标出了与它相关联的事务的ID。例如,由于结点{b,c}与事务ID 1,2和3相关联,因此它的支持度计数为3。从给定的事务可以看出,包含b的每个事务也包含c,因此,由于{b}和{b,c}的支持度是相同的,所以{b}不是闭项集。同样,由于c出现在所有包含a和d的事务中,所以项集{a,d}不是闭的
文档评论(0)