20110801303计科三班吕良datamining2.docxVIP

下载本文档

14
0
约3.36千字
约 5页
2021-01-11 发布于天津
举报
版权申诉

20110801303计科三班吕良datamining2.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第二次作业 I.Apriori 算法使用子集支持性质的先验知识。 (a)证明频繁项集的所有非空的子集也必须是频繁的。答：设s是一个频繁项集，min_sup是最小支持度阀值，任务相关的数据 D是数据库事务的集合，|D| 是 D 有事务量，则有 Support_count(s) = min_supx |D| ；再设s是s的非空子集，则任何包含项集 s的事务将同样包含项集 s , 即: =min_sup x |D|.support_ coun t(s) support coun t(s) =min_sup x |D|. 所以，s也是一个频繁项集。 (b)证明项集 (b)证明项集s的任意非空子集 s的支持至少和 s的支持度一样大。 |D|是D的事务量，由定义得: |D|是D的事务量，由定义得: 斗 i ^upport-count(s) w\support (s)= w\ d, ,, suppnrt-caunt(护) support, (s )= 丽设s 是s的非空子集，由定义得：由(a)可知：support (s)兰 support(s) 由此证明，项集s的任意非空子集s 的支持至少和s的支持度一样大。 (c)给定频繁项集 I (c)给定频繁项集 I和I的子集 s，证明规则 ‘一「几的置信度不可能大于答：设S是I的子集，则 confidences^ - s))=益爲鹅. eonfidence(^(l eonfidence(^(l -『))=:麟;:弘设s 是s的非空子集，则由(b) 可知：support_count(s) - support count(s) , 此外，con fide nee (s ) = (l-s )) con fide nee (s) = (I- s )) 所以，规则的置信度不可能大于 y ?茫r (d) Apriori算法的一种变形将事务数据库 D中的事务划分成n个不重叠的分区。证明在D中频繁的项集至少在 D的一个分区中是频繁的。答：假设频繁项集在 D的任何部分中都不频繁。设F为D的任何频繁项集。令 D是相关事务数据集。令 C是D中事务的总数量。令 A是D中包含F的事务数量。令 min_sup是最小支持度阈值。因为F是频繁项集，所以 A=C*min_sup. 令D分成n个不重叠的部分， d1,d2, dn。那么D=d1d2 , dn. 令cl c2, c n分别是各部分di, d n的事务数量。则 C=c1+c2+,+cn 令al a2, an分别是各部分 di, dn中包含F的事务数量，则 A=a1+a2+ , +an A=C*min_sup即a1+a2+, +an=( c1+c2+ , +cn)* min_sup ① 由假设知F在各部分d1, dn中都不是频繁的，所以 aici*min_sup(i=1,2,3, , ,n)把式子加起来得 a1+a2+, +an( c1+c2+ , +cn)* min_sup,② 可得①②矛盾，所以原假设不成立 2. 622 节介绍了由频繁项集产生关联规则的方法。提出一个更有效的方法。解释它为什么比6.2.2 节的方法更有效。（提示：考虑将习题6.3 （ b）和6.3 （ c）的性质结合到你的设计中。）方法1:基于hash表的项集计数将每个项集通过相应的 hash函数映射到hash表中的不同的桶中，这样可以通过将桶中的项集技术跟最小支持计数相比较先淘汰一部分项集。方法2：事务压缩（压缩进一步迭代的事务数）不包含任何k-项集的事务不可能包含任何（k+1）-项集，这种事务在下一步的计算中可以加上标记或删除。方法3:划分挖掘频繁项集只需要两次数据扫描 D中的任何频繁项集必须作为局部频繁项集至少出现在一个部分中。第一次扫描：将数据划分为多个部分并找到局部频繁项集第二次扫描：评估每个候选项集的实际支持度，以确定全局频繁项集 3.设数据库有 5 个事务。设 min_sup =60%, min_conf=80% TID zlems-buiLyht T100 T200 T300 T400 T500 {M, O, N, K, E: ￥} {D, O, N；K；E, Y } {M, A, K, E} {M,U, GK,Y} {C, O, O, K, 1 tE} ⑻分别使用Apriori和 ⑻分别使用Apriori Apriori: III3G3n2k54y III 3 G 3 n 2 k 5 4 y g d 1 a 1 u 1 c 2 i 1 tn 3 □ 3 k 5 e 4 y mo 1 ink 3 me 2 my 2 ok 3 oe 3 oy 2 ke 4 ky 3 2 ink 3 ok 3 oe 3 ke 1 ky 3