0数据挖掘课件关联分析精选.ppt

下载文档 降价啦

3
0
约1.47万字
约 93页
2020-07-16 发布于天津
举报
版权申诉
保障服务

0数据挖掘课件关联分析精选.ppt

1、本文档共93页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

? 第二组标准可以通过主观论据建立。一个模式被主观认为是无趣的，除非它能够揭示料想不到的信息或提供导致有益的行动的有用信息。 ? 例如： { 黄油 } ? { 面包 } 可能不是有趣的，尽管有很高的支持度和置信度，但是它表示的关系显而易见。另一方面，规则 { 尿布 } ? { 啤酒 } 是有趣的，因为这种联系十分出乎意料，并且可能为零售商提供新的交叉销售机会。 ? 将主观知识加入到模式的评价中是一项困难的任务，因为需要来自领域专家的大量先验信息。下面是一些将主观信息加入到模式发现任务中的方法。兴趣度客观度量（ objective interestingness measure ） ? 客观兴趣度度量使用从数据推导出的统计量来确定模式是否是有趣的。 – 客观兴趣度度量的例子包括支持度、置信度、相关性。 ? 给定一个规则 X ? Y, 我们可以构建一个相依表（ contingency table ）。 Y Y X f 11 f 10 f 1+ X f 01 f 00 f o+ f +1 f +0 |T| Contingency table for X ? Y 支持度 - 置信度框架的局限性 ? 现有的关联规则的挖掘算法依赖于支持度和置信度来除去没有意义的模式。 ? 例子：假定希望分析爱喝咖啡和爱喝茶的人之间的关系。收集一组人关于饮料偏爱的信息，并汇总到下表 6-8 。 Coffee Coffee Tea 150 50 200 Tea 650 150 800 800 200 1000 支持度 - 置信度框架的局限性 ? 可以使用表中给出的信息来评估关系规则 { 茶 } ? { 咖啡 } 。 ? 似乎喜欢喝茶的人也喜欢喝咖啡，因为该规则的支持度（ 15% ）和置信度（ 75% ）都相当高。 ? 但是所有人中，不管他是否喝茶，喝咖啡的人的比例为 80% 。这意味着，一个人如果喝茶，则他喝咖啡的可能性由 80% 减到了 75% 。 ? 置信度的缺点在于该度量忽略了规则后件中项集的支持度。 ? 由于支持度 - 置信度框架的局限性，各种客观度量已经用来评估关联模式。下面，简略介绍这些度量并解释它们的优点和局限性。 – 兴趣因子 – 相关分析 – IS 度量使用 Hash 树进行支持度计数 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function 1 2 3 5 6 3 5 6 1 2 + 5 6 1 3 + 6 1 5 + 3 5 6 2 + 5 6 3 + 1 + 2 3 5 6 transaction 使用 Hash 树进行支持度计数 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function 1 2 3 5 6 3 5 6 1 2 + 5 6 1 3 + 6 1 5 + 3 5 6 2 + 5 6 3 + 1 + 2 3 5 6 transaction 15 个项集中的 9 个与事务进行比较 ? 存放在被访问的叶结点中的候选项集与事务进行比较，如果候选项集是该事务的子集，则增加它的支持度计数。 ? 在该例子中，访问了 9 个叶子结点中的 5 个。 ? 15 个项集中的 9 个与事务进行比较计算复杂性 ? 支持度阈值 – 降低支持度阈值通常将导致更多的项集是频繁的。计算复杂度增加 – 随着支持度阈值的降低，频繁项集的最大长度将增加，导致算法需要扫描数据集的次数也将增多 ? 项数 – 随着项数的增加，需要更多的空间来存储项的支持度计数。如果频繁项集的数目也随着数据项数增加而增长，则由于算法产生的候选项集更多，计算量和 I/O 开销将增加 ? 事务数 – 由于 Apriori 算法反复扫描数据集，因此它的运行时间随着事务数增加而增加 ? 事务的平均宽度 – 频繁项集的最大长度随事务平均宽度增加而增加 – 随着事务宽度的增加，事务中将