20110801303计科三班吕良datamining2.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二次作业 I.Apriori 算法使用子集支持性质的先验知识。 (a)证明频繁项集的所有非空的子集也必须是频繁的。 答:设s是一个频繁项集,min_sup是最小支持度阀值, 任务相关的数据 D是数据库事 务的集合,|D| 是 D 有事务量,则有 Support_count(s) = min_supx |D| ; 再设s是s的非空子集,则任何包含项集 s的事务将同样包含项集 s , 即: =min_sup x |D|.support_ coun t(s) support coun t(s) =min_sup x |D|. 所以,s也是一个频繁项集。 (b)证明项集 (b)证明项集s的任意非空子集 s的支持至少和 s的支持度一样大。 |D|是D的事务量,由定义得: |D|是D的事务量,由定义得: 斗 i ^upport-count(s) w\support (s)= w\ d, ,, suppnrt-caunt(护) support, (s )= 丽 设s 是s的非空子集,由定义得: 由(a)可知:support (s)兰 support(s) 由此证明,项集s的任意非空子集s 的支持至少和s的支持度一样大。 (c)给定频繁项集 I (c)给定频繁项集 I和I的子集 s,证明规则 ‘一「几 的置信度不可能大于 答:设S是I的子集,则 confidences^ - s))=益爲鹅. eonfidence(^(l eonfidence(^(l -『))=:麟;:弘 设s 是s的非空子集,则 由(b) 可知:support_count(s) - support count(s) , 此外,con fide nee (s ) = (l-s )) con fide nee (s) = (I- s )) 所以,规则 的置信度不可能大于 y ?茫r (d) Apriori算法的一种变形将事务数据库 D中的事务划分成n个不重叠的分区。证明 在D中频繁的项集至少在 D的一个分区中是频繁的。 答:假设频繁项集在 D的任何部分中都不频繁。 设F为D的任何频繁项集。令 D是相关事务数据集。令 C是D中事务的总数量。令 A是D中包含F的 事务数量。令 min_sup是最小支持度阈值。 因为F是频繁项集,所以 A=C*min_sup. 令D分成n个不重叠的部分, d1,d2, dn。那么D=d1d2 , dn. 令cl c2, c n分别是各部分di, d n的事务数量。则 C=c1+c2+,+cn 令al a2, an分别是各部分 di, dn中包含F的事务数量,则 A=a1+a2+ , +an A=C*min_sup即a1+a2+, +an=( c1+c2+ , +cn)* min_sup ① 由假设知F在各部分d1, dn中都不是频繁的,所以 aici*min_sup(i=1,2,3, , ,n)把式子加起来得 a1+a2+, +an( c1+c2+ , +cn)* min_sup,② 可得①②矛盾,所以原假设不成立 2. 622 节介绍了由频繁项集产生关联规则的方法。提出一个更有效的方法。解释它为 什么比6.2.2 节的方法更有效。(提示:考虑将习题6.3 ( b)和6.3 ( c)的性质结合到你的 设计中。) 方法1:基于hash表的项集计数 将每个项集通过相应的 hash函数映射到hash表中的不同的桶中,这样可以通过将桶中的项集 技术跟最小支持计数相比较先淘汰一部分项集。 方法2:事务压缩(压缩进一步迭代的事务数) 不包含任何k-项集的事务不可能包含任何 (k+1)-项集,这种事务在下一步的计算中可以加上 标记或删除。 方法3:划分 挖掘频繁项集只需要两次数据扫描 D中的任何频繁项集必须作为局部频繁项集至少出现在一个部分中。 第一次扫描:将数据划分为多个部分并找到局部频繁项集 第二次扫描:评估每个候选项集的实际支持度,以确定全局频繁项集 3.设数据库有 5 个事务。设 min_sup =60%, min_conf=80% TID zlems-buiLyht T100 T200 T300 T400 T500 {M, O, N, K, E: ¥} {D, O, N;K;E, Y } {M, A, K, E} {M,U, GK,Y} {C, O, O, K, 1 tE} ⑻分别使用Apriori和 ⑻分别使用Apriori Apriori: III3G3n2k54y III 3 G 3 n 2 k 5 4 y g d 1 a 1 u 1 c 2 i 1 tn 3 □ 3 k 5 e 4 y mo 1 ink 3 me 2 my 2 ok 3 oe 3 oy 2 ke 4 ky 3 2 ink 3 ok 3 oe 3 ke 1 ky 3

文档评论(0)

dajiede + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档