- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二次作业
I.Apriori 算法使用子集支持性质的先验知识。
(a)证明频繁项集的所有非空的子集也必须是频繁的。
答:设s是一个频繁项集,min_sup是最小支持度阀值, 任务相关的数据 D是数据库事
务的集合,|D| 是 D 有事务量,则有 Support_count(s) = min_supx |D| ;
再设s是s的非空子集,则任何包含项集 s的事务将同样包含项集 s , 即:
=min_sup x |D|.support_ coun t(s) support coun t(s)
=min_sup x |D|.
所以,s也是一个频繁项集。
(b)证明项集
(b)证明项集s的任意非空子集 s的支持至少和
s的支持度一样大。
|D|是D的事务量,由定义得:
|D|是D的事务量,由定义得:
斗 i ^upport-count(s)
w\support (s)=
w\
d, ,, suppnrt-caunt(护) support, (s )= 丽
设s 是s的非空子集,由定义得:
由(a)可知:support (s)兰 support(s)
由此证明,项集s的任意非空子集s 的支持至少和s的支持度一样大。
(c)给定频繁项集 I
(c)给定频繁项集 I和I的子集
s,证明规则 ‘一「几 的置信度不可能大于
答:设S是I的子集,则
confidences^ - s))=益爲鹅.
eonfidence(^(l
eonfidence(^(l -『))=:麟;:弘
设s 是s的非空子集,则
由(b) 可知:support_count(s) - support count(s) ,
此外,con fide nee (s ) = (l-s )) con fide nee (s) = (I- s ))
所以,规则 的置信度不可能大于 y ?茫r
(d) Apriori算法的一种变形将事务数据库 D中的事务划分成n个不重叠的分区。证明
在D中频繁的项集至少在 D的一个分区中是频繁的。
答:假设频繁项集在 D的任何部分中都不频繁。
设F为D的任何频繁项集。令 D是相关事务数据集。令 C是D中事务的总数量。令 A是D中包含F的
事务数量。令 min_sup是最小支持度阈值。 因为F是频繁项集,所以 A=C*min_sup.
令D分成n个不重叠的部分, d1,d2, dn。那么D=d1d2 , dn.
令cl c2, c n分别是各部分di, d n的事务数量。则 C=c1+c2+,+cn
令al a2, an分别是各部分 di, dn中包含F的事务数量,则 A=a1+a2+ , +an A=C*min_sup即a1+a2+, +an=( c1+c2+ , +cn)* min_sup ①
由假设知F在各部分d1, dn中都不是频繁的,所以 aici*min_sup(i=1,2,3, , ,n)把式子加起来得
a1+a2+, +an( c1+c2+ , +cn)* min_sup,② 可得①②矛盾,所以原假设不成立
2. 622 节介绍了由频繁项集产生关联规则的方法。提出一个更有效的方法。解释它为
什么比6.2.2 节的方法更有效。(提示:考虑将习题6.3 ( b)和6.3 ( c)的性质结合到你的 设计中。) 方法1:基于hash表的项集计数
将每个项集通过相应的 hash函数映射到hash表中的不同的桶中,这样可以通过将桶中的项集 技术跟最小支持计数相比较先淘汰一部分项集。
方法2:事务压缩(压缩进一步迭代的事务数)
不包含任何k-项集的事务不可能包含任何 (k+1)-项集,这种事务在下一步的计算中可以加上 标记或删除。
方法3:划分
挖掘频繁项集只需要两次数据扫描
D中的任何频繁项集必须作为局部频繁项集至少出现在一个部分中。
第一次扫描:将数据划分为多个部分并找到局部频繁项集 第二次扫描:评估每个候选项集的实际支持度,以确定全局频繁项集
3.设数据库有 5 个事务。设 min_sup =60%, min_conf=80%
TID
zlems-buiLyht
T100
T200
T300
T400
T500
{M, O, N, K, E: ¥} {D, O, N;K;E, Y }
{M, A, K, E} {M,U, GK,Y} {C, O, O, K, 1 tE}
⑻分别使用Apriori和
⑻分别使用Apriori
Apriori:
III3G3n2k54y
III
3
G
3
n
2
k
5
4
y
g
d
1
a
1
u
1
c
2
i
1
tn
3
□
3
k
5
e
4
y
mo
1
ink
3
me
2
my
2
ok
3
oe
3
oy
2
ke
4
ky
3
2
ink
3
ok
3
oe
3
ke
1
ky
3
原创力文档


文档评论(0)