大数据经典算法Apriori讲解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于Apriori算法小例子;Apriori算法是挖掘布尔关联规那么频繁项集的算法,

是现行大多数关联规那么算法的根底

Apriori算法通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。

先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描。;Apriori算法利用的是Apriori性质:

频繁项集的所有非空子集也必须是频繁的。

Apriori算法是反单调的,即一个集合如果不能通过测试,那么该集合的所有超集也不能通过相同的测试。;算法思想;算法:Apriori。使用逐层迭代方法基于候选产生找出频繁项集。

输入:

D:实物数据库;

Min_sup:最小支持度计数阈值。

输出:L:D中的频繁项集。

方法:

L1=find_frequent_1-itemsets(D);//挖掘频繁1-项集

for(k=2;Lk-1!=¢;k++){

Ck=apriori_gen(Lk-1);//调用apriori_gen方法生成候选频繁k-项集

Foreach事务t∈D{//扫描事务数据库D用于计数

Ct=subset(Ck,t);//得到t的子集,它们是候选

foreach候选c∈C;

C.count++;//?统计候选频繁k-项集的计数

}

Lk={c∈C|c.count=min_stp}//?满足最小支持度的k-项集即为频繁k-项集

}

returnL=UkLk;?//?合并频繁k-项集〔k0〕

;Procedureapriori_gen(Lk-1:frequent(k-1)-itemsets)

foreach项集l1∈Lk-1

foreach项集l2∈Lk-1

If(l1[1]=l2[1])^(l1[2]=l2[2])^…(l1[k-2]=l2[k-2])^(l1[k-1]=l2[k-1])then{

c=l1∞l2//连接:产生候选

ifhas_infrequent_subset(c,Lk-1)then

deletec;//剪枝;删除非频繁的候选

elseaddctoCk;

}

returnCk;

;DatabaseTDB;1.连接:

C3={{A,B,C},{A,C,E},{B,C,E}}

2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:

{A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项;

{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E}不是L2的元素,所以删除这个选项;

{B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保存这个选项。

3.这样,剪枝后得到C3={{B,C,E}};算法应用

;Apriori算法应用于网络平安领域,比方时候入侵检测技术中。早期中大型的电脑系统中都收集审计信息???建立跟踪档,这些审计跟踪的目的多是为了性能测试或计费,因此对攻击检测提供的有用信息比较少。它通过模式的学习和训练可以发现网络用户的异常行为模式。采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规那么,是网络入侵检测系统可以快速的发现用户的行为模式,能够快速的锁定攻击者,提高了基于关联规那么的入侵检测系统的检测性。

Apriori算法应用于高校管理中。随着高校贫困生人数的不断增加,学校管理部门资助工作难度也越加增大。针对这一现象,提出一种基于数据挖掘算法的解决方法。将关联规那么的Apriori算法应用到贫困助学体系中,并且针对经典Apriori挖掘算法存在的缺乏进行改进,先将事务数据库映射为一个布尔矩阵,用一种逐层递增的思想来动态的分配内存进行存储,再利用向量求与运算,寻找频繁项集。实验结果说明,改进后的Apriori算法在运行效率上有了很大的提升,挖掘出的规那么也可以有效地辅助学校管理部门有针对性的开展贫困助学工作。;从以上的算法执行过程可以看到Apriori算法的缺点:

第一:在每一步产生侯选工程集时循环产生的组合过多,

没有排除不应该参与组合的元素,产生大量的候

选集;

第二:每次计算项集的支持度时,都对数据库D中的全部

记录进行了一遍扫描比较,如果是一个大型的数据

库的话,这种扫描比较会大大增加计算机系统的

I/O开销。而这种代价是随着数据库的记录的增加

文档评论(0)

liuzhouzhong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档