- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、填空题
1、关联规则挖掘的目的是 。
2、在下列事务数据集中
TID
项集
1
{面包,牛奶}
2
{面包,尿布,啤酒,鸡蛋}
3
{牛奶,尿布,啤酒,可乐}
4
{面包,牛奶,尿布,啤酒}
5
{面包,牛奶,尿布,可乐}
项集{啤酒,尿布,牛奶}的支持数为 ,支持度为 。
3、在第2题的事务数据集中,如果将最小支持数定为3,则数据集中的频繁项集有 。
4、在第2题的事务数据集中,规则
{牛奶,尿布}→{啤酒}
的支持度为 ,置信度为 。
5、满足最小支持度和最小信任度的关联规则称为 。
6、给定一个事务数据库,关联规则挖掘间题就是通过用户指定的 和
来寻找强关联规则的过程。
7、关联规则挖掘问题可以划分成 和 两个子问题。
8、可以降低产生频繁项集的计算复杂度两种方法为: 和 。
9、候选集产生的方法有: 、 和 。
10、Apriori算法有两个致命的性能瓶颈。它们分别是:
(1)
(2)
二、多项选择题
1、设有项目集是的一个子集,则下列结论中成立的是( )
A、如果如果频繁项目集,则也是频繁项目集;
B、如果如果频繁项目集,则也是频繁项目集;
C、如果如果非频繁项目集,则也是非频繁项目集;
C、如果如果非频繁项目集,则也是非频繁项目集;
E、如果如果频繁项目集,则可能是频繁项目集也可能是非频繁项目集。
2、设3-项集是频繁项目集,则下列1-项集和2-项集中,( )是频繁项目集。
A、 B、 C、 D、 E、
3、设事务数据库具有项集,已知不是强关联规则时,则下列关联规则中,( )一定不是强关联规则。
A、 B、 C、 D、 E、
4、设事务数据库具有项集,已知不是强关联规则时,则下列关联规则中,( )一定不是强关联规则。
A、 B、 C、 D、 E、
5、假设关联规则具有低可置信度,则在关联规则生成算法中,规则( )应该被丢弃(剪枝)。
A、 B、 C、
D、 E、
三、问答题
1、进行关联分析时,需要处理的两个关键问题是什么?
2、将下列事务数据库的用二元形式表示
TID
项集
1
{面包,牛奶}
2
{面包,尿布,啤酒,鸡蛋}
3
{牛奶,尿布,啤酒,可乐}
4
{面包,牛奶,尿布,啤酒}
5
{面包,牛奶,尿布,可乐}
四、求解题
1、设有如下事务数据库:
TID
Itemset
1
A,B,C,D
2
B,C,D
3
A,B,C,E
4
B,D,E
5
A,B,C,D
(1)设minsupport=40%,利用Apriori算法求出所有的频繁项目集,指出其中的最大频繁项目集。
(2)设minconfidence=60%,利用Apriori算法生成找出所有的强关联规则。
2、考虑下表中购物篮事务数据集。
顾客ID
购买项
1
{a,d,e}
1
{a,b,c,e}
2
{a,b,d,e}
2
{a,c,d,e}
3
{b,c,e}
3
{b,d,e}
4
{c,d}
4
{a,b,c}
5
{a,d,e}
5
{a,b,e}
(1)设minsupport=40%,利用Apriori算法求出所有的频繁项目集,指出其中的最大频繁项目集。
(2)设minconfidence=60%,利用Apriori算法生成找出所有的强关联规则。
3、考虑下表中显示的购物篮事务。
事务ID
购买项
1
{牛奶,啤酒,尿布}
2
{面包,黄油,牛奶}
3
{牛奶,尿布,饼干}
4
{面包,黄油,饼干}
5
{啤酒,饼干,尿布}
6
{牛奶,尿布,面包,黄油}
7
{面包,黄油,尿布}
8
{啤酒,尿布}
9
{牛奶,尿布,面包,黄油}
10
{啤酒,饼干}
(1)设minsupport=40%,利用Apriori算法求出所有的频繁项目集,指出其中的最大频繁项目集。
(2)设minconfidence=60%,利用Apriori算法生成找出所有的强关联规则。
原创力文档


文档评论(0)