《流数据》课件_04_流数据频繁模式_2021.pptxVIP

《流数据》课件_04_流数据频繁模式_2021.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1频繁模式2频繁项挖掘算法3频繁模式挖掘算法4频繁模式挖掘的其他问题5小结

频繁项从每天的销售数据中统计卖的最好的产品、查看最多的产品……

频繁项集3能否看一下,都有哪些商品会被用户同时放在购物车中——哪些商品组合出现频次最高?

频繁项频繁项集4思考一下,如何实时推荐歌单?

频繁项集频繁项项,是数据集的元素如果项的出现频率满足预定义的最小阈值即频繁项频繁项集项的集合称为项集包含k个项的项集称为k-项集项集的出现频率是包含项集的事务数,简称为项集的频率,支持度计数或计数如果项集的出现频率满足预定义的最小阈值即频繁项集5

频繁模式频繁模式是频繁的出现在数据集中的模式如项集、子序或者子结构频繁模式挖掘是发现数据中蕴含的内在规律哪些产品经常被一起购买?(啤酒和纸尿裤)买了PC之后接着都会买些什么?(PC?移动硬盘)应用购物篮分析、Web日志分析、捆绑销售6??

频繁模式的定义?7???

频繁模式的定义?8频繁项集、频繁序列、频繁子图、频繁子树

例子?9???N=5??

Apriori算法核心思想:任何频繁项集的子集都是频繁项集迭代算法首先,找出所有的频繁1-项集;然后,找出所有的频繁2-项集;……10ABACADBCBDCDABCDABCABDACDBCD

Apriori算法—过程示例?11第1次遍历?C1={1}:2,{2}:3,{3}:3,{4}:1,{5}:3 候选集 F1={1}:2,{2}:3,{3}:3,{5}:3 频繁项集 C2={1,2},{1,3},{1,5},{2,3},{2,5},{3,5}第2次遍历?C2={1,2}:1,{1,3}:2,{1,5}:1,{2,3}:2,{2,5}:3,{3,5}:2 F2={1,3}:2,{2,3}:2,{2,5}:3,{3,5}:2 C3={2,3,5}第3次遍历?C3={2,3,5}:2 F3={2,3,5}:2T100T200T300T4001,3,42,3,51,2,3,52,5N=42取交集取交集

Apriori算法——频繁项?12

Apriori算法——候选集Functioncandidate-gen(Fk-1) Ck??; forallf1,f2?Fk-1 withf1={i1,…,ik-2,ik-1} andf2={i1,…,ik-2,i’k-1} andik-1i’k-1do c?{i1,…,ik-1,i’k-1}; //合并f1和f2 Ck?Ck?{c}; foreach(k-1)-subsetsofcdo if(s?Fk-1)then deletecfromCk; //若k-1子集非频繁项集,则剪枝 end end returnCk;13

Apriori算法—思考Apriori算法能用于流数据的频繁模式挖掘吗?挖掘频繁项时,每个项一个计数器(存不下)挖掘频繁项集时,需进行多次遍历(行不通)14流数据分析特点:进行一次遍历记住重要信息允许有限误差

1频繁模式2频繁项挖掘算法3频繁模式挖掘算法4频繁模式挖掘的其他问题5小结

有损计数频繁项挖掘16

有损计数算法?17项的实际频次????

有损计数算法?18注意:并不能准确预计流数据的基数,即不同类型项目的数量哈希表频次计数器的项数如何定?

有损计数算法19第一步:划分窗口?

有损计数算法20第二步:计数?为什么需要记录窗口序号?如果所有项几乎都不同会怎样??

21有损计数算法第三步:在窗口边界调整计数器?为什么需要删除计数器?

22有损计数算法第四步:处理下一个窗口继续计数,并在边界处调整计数器?删除计数器会带来多少计数误差?

23有损计数算法第五步:查询输出??项的估计频次??没有漏报!!

有损计数算法最后得到的是什么?24

25有损计数算法总过程?????边界调整,删除????边界调整,删除??????边界调整??误差最大的是???如果删掉了Ci满足

有损计数算法—可行性内存开销能否满足流数据要求?计数器的最大内存开销:

随数据流长度增长!!数学归纳法证明,证明参见G.S.Manku,R.Motwani,

文档评论(0)

酱酱 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档