- 1、本文档共93页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? 第二组标准可以通过主观论据建立。一个模式被主 观认为是无趣的,除非它能够揭示料想不到的信息 或提供导致有益的行动的有用信息。 ? 例如: { 黄油 } ? { 面包 } 可能不是有趣的,尽管有很 高的支持度和置信度,但是它表示的关系显而易见 。另一方面,规则 { 尿布 } ? { 啤酒 } 是有趣的,因为 这种联系十分出乎意料,并且可能为零售商提供新 的交叉销售机会。 ? 将主观知识加入到模式的评价中是一项困难的任务 ,因为需要来自领域专家的大量先验信息。下面是 一些将主观信息加入到模式发现任务中的方法。 兴趣度客观度量( objective interestingness measure ) ? 客观兴趣度度量使用从数据推导出的统计量来确定 模式是否是有趣的。 – 客观兴趣度度量的例子包括支持度、置信度、相关性。 ? 给定一个规则 X ? Y, 我们可以构建一个相依表( contingency table )。 Y Y X f 11 f 10 f 1+ X f 01 f 00 f o+ f +1 f +0 |T| Contingency table for X ? Y 支持度 - 置信度框架的局限性 ? 现有的关联规则的挖掘算法依赖于支持度和置信度来除去 没有意义的模式。 ? 例子:假定希望分析爱喝咖啡和爱喝茶的人之间的关系。 收集一组人关于饮料偏爱的信息,并汇总到下表 6-8 。 Coffee Coffee Tea 150 50 200 Tea 650 150 800 800 200 1000 支持度 - 置信度框架的局限性 ? 可以使用表中给出的信息来评估关系规则 { 茶 } ? { 咖啡 } 。 ? 似乎喜欢喝茶的人也喜欢喝咖啡,因为该规则的支 持度( 15% )和置信度( 75% )都相当高。 ? 但是所有人中,不管他是否喝茶,喝咖啡的人的比 例为 80% 。这意味着,一个人如果喝茶,则他喝咖 啡的可能性由 80% 减到了 75% 。 ? 置信度的缺点在于该度量忽略了规则后件中项集的 支持度。 ? 由于支持度 - 置信度框架的局限性,各种客观度量 已经用来评估关联模式。下面,简略介绍这些度量 并解释它们的优点和局限性。 – 兴趣因子 – 相关分析 – IS 度量 使用 Hash 树进行支持度计数 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function 1 2 3 5 6 3 5 6 1 2 + 5 6 1 3 + 6 1 5 + 3 5 6 2 + 5 6 3 + 1 + 2 3 5 6 transaction 使用 Hash 树进行支持度计数 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function 1 2 3 5 6 3 5 6 1 2 + 5 6 1 3 + 6 1 5 + 3 5 6 2 + 5 6 3 + 1 + 2 3 5 6 transaction 15 个项集中的 9 个与事务进行比较 ? 存放在被访问的叶结点中的候选项集与事务进行比 较,如果候选项集是该事务的子集,则增加它的支 持度计数。 ? 在该例子中 ,访问了 9 个叶子结点中的 5 个。 ? 15 个项集中的 9 个与事务进行比较 计算复杂性 ? 支持度阈值 – 降低支持度阈值通常将导致更多的项集是频繁的。计算复杂度增加 – 随着支持度阈值的降低,频繁项集的最大长度将增加,导致算法需 要扫描数据集的次数也将增多 ? 项数 – 随着项数的增加,需要更多的空间来存储项的支持度计数。如果频 繁项集的数目也随着数据项数增加而增长,则由于算法产生的候选 项集更多,计算量和 I/O 开销将增加 ? 事务数 – 由于 Apriori 算法反复扫描数据集,因此它的运行时间随着事务数增 加而增加 ? 事务的平均宽度 – 频繁项集的最大长度随事务平均宽度增加而增加 – 随着事务宽度的增加,事务中将
文档评论(0)