数据挖掘作业2.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能信息处理第二次作业 费洋 2013010905010 6.6设数据库有5个事务。设min_sup =60%, min_conf=80% (a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。 FP-growth树算法 K 5 E 4 O 3 M 3 Y 3 Null{} K:5 E:4 M:1 O:3 OM:1 OY:1 M:1 OY:1 Y:1 项 条件模式基 条件FD模式 产生的频繁模式 Y {K,E,O,D:1}{K,E,O:1}{K,M:1} K:3 {K,Y:3} M {K,E,,O:1}{K,E:1}{K:1} K:3 {K,M:3} O {K,E:3} K:3,E:3 {K,O:3}{E,O:3}{K,E,O:3} E {K:4} K:4 {K,E:4} 效率比较:Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选,但是FP消耗了大量的内存,当数据量很大时。 (b)列举所有与下面的元规则匹配的强关联规则(给出支持度S和置信度C),其中,X是代表顾客的变量,itemi是表示项的变量(如:“A”、“B”等): 答: k,o e [0.6,1] e,o k [0.6,1] 6.8.数据库有4个事务,设min_sup =60%, min_conf=80% (a)在item_category粒度(例如,itemi 可以是“Milk”),对于下面的规则模板 对最大的k,列出频繁k项集包含最大的k的频繁k项集的所有强关联规则(包括它们的支持度S和置信度c). (b)在 粒度(例如:itemi 可以是“Sunset-Milk”)对于下面的规则模板 对最大的k,列出频繁k项集(但不输出任何规则)。 K=3频繁1项集{Wonder-Bread} 6.14 下面的相依表汇总了超级市场的事务数据。其中,hot dogs表示包含热狗的事务,hot dogs表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,hamburgers表示不包含汉堡包的事务, (a)假定挖掘出了关联规则 。给定最小支持度阀值25%,最小置信度阀值50%,该关联规则是强规则吗? (a)支持度=2000/5000*100%=40%25%,置信度=2000/3000*100%=66.7%50% 则该关联规则是强规则 (b)根据给定的数据,买 hot dogs独立于买humburgers吗?如果不是,二者之间存在何种相关联系。 答:corr{hotdog;hamburger} = P({hot dog, hamburger})/(P({hot dog}) P({hamburger})=0.4/(0.5 × 0.6) =1.33 1. 所以,买 hot dogs不是独立于买humburgers。两者存在正相关 (c)全置信度=0.67,最大置信度=0.80,Kulczynski=0.735,余弦=0.73212,提升度=1.33 根据数据显示,都表示两者之间存在正相关的关系。

文档评论(0)

我思故我在 + 关注
实名认证
文档贡献者

部分用户下载打不开,可能是因为word版本过低,用wps打开,然后另存为一个新的,就可以用word打开了

1亿VIP精品文档

相关文档