toivonen算法.pptx

下载文档 降价啦

37
0
约1.81千字
约 14页
2017-06-01 发布于浙江
举报
版权申诉
保障服务

toivonen算法.pptx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

toivonen算法

Toivonen 算法;;Toivonen算法在给出足够内存的情况下，在小样本上进行一遍扫描，接着对整个数据进行一遍完整的扫描。这个算法不会带来伪正例，也不会带来伪反例，但是这里存在一个小的概率使得算法会产生不了任何结果。这种情况下算法需要重复直至找到一个结果，虽然如此，在产生且只产生所有频繁项集之前所需要的平均扫描次数是一个很小的常数。;? Toivonen算法首先从输入数据集中选择一个小的样本，并从中找到候选频繁项集，找的过程同A-priori算法，不过很重要的一点不同是：有必要将支持度阈值设置得比样本和所有数据的规模比率稍低。即，当整个数据集上的支持度阈值为s，该样本所占数据集的比例为p，则在样本中寻找频繁项集时的支持度阈值可以设置为0.9ps或0.8ps。越小的阈值，就意味着在处理样本时，越多的内存在计算频繁项集时需要使用；但是也就越大的可能性避免算法失败。;当样本的频繁项集被构造完成后，我们的下一步是构造反例边界（negative border）。反例边界由样本数据上的所有满足以下性质的非频繁项集组成，即：但是这些项集的直接子集在样本数据上都是频繁的。（这里的直接子集即删除集合的任意一个元素构建的集合。）; 为了完成Toivonen算法，我们需要对整个数据集进行一遍扫描，对所有在样本中的频繁项集或反例边界中的所有项集进行计数。两种可能的结果： 1、反例边界中所有集合在整个数据集上也都是非频繁项集。这种情况下，正确的频繁项集就为样本中的频繁项集。;2、某些在反例边界中的项集在整个数据集中是频繁项集。这时，我们不能确定反例边界中和样本的的频繁项集之外，是否存在更大的项集，这个项集是整个数据集上的频繁项集。这样，我们在此次的抽样中得不到结果，算法只能在重新抽样，继续重复上面的步骤，直到出现满足输出情形1时停止。;考虑项为{A,B,C,D,E}，而且我们找到样本数据集上的频繁项集为{A}，{B}，{C}，{D}，{B，C}，{C，D}。注意，只要购物篮数目不比支持度阈值小，那么Φ也是频繁的，但是我们忽略它。构建反例边界首先，因为{E}本身不是频繁项集，但是从中去除任意项后的唯一直接子集为Φ， Φ是频繁项集，所以{E}包含在反例边界中。;双元素集合{A，B}，{A，C}，{A，D}和{B，D}都在反例边界中。因为它们都不是频繁项集，但是除掉一个项的直接子集都是频繁项集。如{A，B}的子集{A}和{B}都是频繁集。剩下的六个二元项集不在反例边界中。{B，C}和{C，D}因为它们本身是频繁项集，所以就不是反例边界的元素了；而其他四个虽然不是频繁项集，但是因为包含了非频繁的直接子集{E} ，所以它们不属于反例边界。;没有任何三元的或更大的项集在反例边界中了。例如{B，C，D} ，因为它有一个直接子集{B，D}，而{B，D}不是频繁项集，所以不属于反例边界中。这样，反例边界由下面五个集合组成： {E}，{A，B}，{A，C}，{A，D}和{B，D}。;显然 Toivonen算法不会产生伪反例，因为它仅仅将在样本中是频繁项并在整个数据集上计算确实为频繁项集的项集作为频繁项集。为讨论该算法能够不产生伪反例，我们需要说明，在Toivonen算法中，当所有反例边界中的集合在整个数据集上都是不频繁的，那么不可能有某个项集满足：（1）它在整个数据集上是频繁的；（2）但不出现在反例边界中也不在样本的频繁项集集合中。; 给个反例。假定有个集合S在整个数据集上是频繁项集，但是既不在样本的反例边界中，也不在样本的频繁项集集合中。同时，假定Toivonen算法在本轮中产生了结果，并且结果中的频繁项集合中不包含S。根据频繁项集的单调性理论，S的所有子集都是整个数据集的频繁项集。假设T是S所有子集中在样本数据上非频繁的最小子集。; 我们可以断言，T一定在反例边界中。T满足在反例边界中的条件：（1）它在样本数据集上是非频繁的；（2）而它的所有直接子集在样本数据集上是频繁的，因为如果T的某个直接子集在样本数据集上是非频繁的，则T不是S的在样本中非频繁的最小子集，和前面关于T 的假设产生矛盾。这里我们可以发现：T既是整个数据集上的频繁项集，又在样本的反例边界中。所以，Toivonen算法在这一轮不能产生结果。;THANK YOU!