- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘习题课2
* argmax表示寻找具有最大评分的参量 argmin 或者argmax 吧,它的含义是求一组序列的参数的值,当使用这个参数时序列中的值达到最小(或最大)。 * * * * * 数据仓库与数 据 挖 掘 主讲教师:王浩畅 E-mail: wanghch_angel@ School of Computer Information Technology of NEPU 习题课2 习题5.3 5.3.数据库有5个事物。设min_sup=60%,min_conf=80%. (a)分别使用Apriori和FP增长算法找出所有的频繁项集。比较两种挖掘过程的效率。 (b)列举所有与下面的的元规则匹配的强关联规则(给出支持度s和置信度c),其中,X是代表顾客的变量,item是表示项的变量(如“A”、“B”等): ?x?transaction, buys(X, item1)∧buys(X, item2)?buys(X, item3) [s, c] TID 购买的商品 T100 {M, O, N, K, E, Y} T200 {D, O, N, K, E, Y} T300 {M, A, K, E} T400 {M, U, C, K, Y} T500 {C, O, O, K, I, E} 解答5.3 (a) 解答5.3(续) (a) 项头表 Item frequency head k 5 e 4 m 3 o 3 y 3 解答5.3 (续) (a) 效率比较:Apriori算法的计算过程必须对数据库作多次扫描,而FP-增长算法在构造过程中只需扫描一次数据库,再加上初始时为确定支持度递减排序的一次扫描,共计只需两次扫描。由于在Apriori算法中的自身连接过程产生候选项集,候选项集产生的计算代价非常高,而FP-增长算法不需产生任何候选项。 解答5.3 (续) (b)列举所有与下面的的元规则匹配的强关联规则(给出支持度s和置信度c),其中,X是代表顾客的变量,item是表示项的变量(如“A”、“B”等): ?x?transaction, buys(X, “K”)∧buys(X, “O”)?buys(X, “E”) [s=0.6, c=1] ?x?transaction, buys(X, “E”)∧buys(X, “O”)?buys(X, “K”) [s=0.6, c=1] 或也可表示为 K,O→E[s(support)=0.6或60%,c(confidence)=1或100%] E,O→K[s(support)=0.6或60%,c(confidence)=1或100%] 5.14.下面的相依表汇总了超级市场的事务数据。其中,hot dog表示包含热狗的事务, 表示不包含热狗的事务,humburgers表示包含汉堡包的事务, 表示不包含汉堡包的事务。 (a) 假定发现关联规则”hot dog ? humburgers”。给定最小支持度阈值25%,最小置信度阈值50%,该关联规则是强的吗? (b) 根据给定的数据,买hot dog独立于买humburgers吗?如果不是,二者之间存在何种相关联系? hot dog ?row humburgers 2,000 500 2,500 1,000 1,500 2,500 ?col 3,000 2,000 5,000 习题5.14 解答5.14 (续) (a) 假定发现关联规则”hot dog ? humburgers”。给定最小支持度阈值25%,最小置信度阈值50%,该关联规则是强的吗? 支持度=P(hot dog , humburgers)= 2000/5000 = 40% 25%, 置信度= P(hot dog , humburgers)/ P(hot dog )= 2000/3000 = 66.7% 50%.关联规则是强的 (b) 根据给定的数据,买hot dog独立于买humburgers吗?如果不是,二者之间存在何种相关联系? Corr{hotdog, hamburger} = P({hot dog, hamburger})/(P({hot dog}) P({hamburger})) = 0.4/(0.5 × 0.6) =1.33 1. 因此,购买 hotdogs 和hamburgers 不独立。并且两者是正相关的关系
文档评论(0)