- 1、本文档共93页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? 第二组标准可以通过主观论据建立。一个模式被主 观认为是无趣的,除非它能够揭示料想不到的信息 或提供导致有益的行动的有用信息。 ? 例如: { 黄油 } ? { 面包 } 可能不是有趣的,尽管有很 高的支持度和置信度,但是它表示的关系显而易见 。另一方面,规则 { 尿布 } ? { 啤酒 } 是有趣的,因为 这种联系十分出乎意料,并且可能为零售商提供新 的交叉销售机会。 ? 将主观知识加入到模式的评价中是一项困难的任务 ,因为需要来自领域专家的大量先验信息。下面是 一些将主观信息加入到模式发现任务中的方法。 兴趣度客观度量( objective interestingness measure ) ? 客观兴趣度度量使用从数据推导出的统计量来确定 模式是否是有趣的。 – 客观兴趣度度量的例子包括支持度、置信度、相关性。 ? 给定一个规则 X ? Y, 我们可以构建一个相依表( contingency table )。 Y Y X f 11 f 10 f 1+ X f 01 f 00 f o+ f +1 f +0 |T| Contingency table for X ? Y 支持度 - 置信度框架的局限性 ? 现有的关联规则的挖掘算法依赖于支持度和置信度来除去 没有意义的模式。 ? 例子:假定希望分析爱喝咖啡和爱喝茶的人之间的关系。 收集一组人关于饮料偏爱的信息,并汇总到下表 6-8 。 Coffee Coffee Tea 150 50 200 Tea 650 150 800 800 200 1000 支持度 - 置信度框架的局限性 ? 可以使用表中给出的信息来评估关系规则 { 茶 } ? { 咖啡 } 。 ? 似乎喜欢喝茶的人也喜欢喝咖啡,因为该规则的支 持度( 15% )和置信度( 75% )都相当高。 ? 但是所有人中,不管他是否喝茶,喝咖啡的人的比 例为 80% 。这意味着,一个人如果喝茶,则他喝咖 啡的可能性由 80% 减到了 75% 。 ? 置信度的缺点在于该度量忽略了规则后件中项集的 支持度。 ? 由于支持度 - 置信度框架的局限性,各种客观度量 已经用来评估关联模式。下面,简略介绍这些度量 并解释它们的优点和局限性。 – 兴趣因子 – 相关分析 – IS 度量 使用 Hash 树进行支持度计数 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function 1 2 3 5 6 3 5 6 1 2 + 5 6 1 3 + 6 1 5 + 3 5 6 2 + 5 6 3 + 1 + 2 3 5 6 transaction 使用 Hash 树进行支持度计数 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function 1 2 3 5 6 3 5 6 1 2 + 5 6 1 3 + 6 1 5 + 3 5 6 2 + 5 6 3 + 1 + 2 3 5 6 transaction 15 个项集中的 9 个与事务进行比较 ? 存放在被访问的叶结点中的候选项集与事务进行比 较,如果候选项集是该事务的子集,则增加它的支 持度计数。 ? 在该例子中 ,访问了 9 个叶子结点中的 5 个。 ? 15 个项集中的 9 个与事务进行比较 计算复杂性 ? 支持度阈值 – 降低支持度阈值通常将导致更多的项集是频繁的。计算复杂度增加 – 随着支持度阈值的降低,频繁项集的最大长度将增加,导致算法需 要扫描数据集的次数也将增多 ? 项数 – 随着项数的增加,需要更多的空间来存储项的支持度计数。如果频 繁项集的数目也随着数据项数增加而增长,则由于算法产生的候选 项集更多,计算量和 I/O 开销将增加 ? 事务数 – 由于 Apriori 算法反复扫描数据集,因此它的运行时间随着事务数增 加而增加 ? 事务的平均宽度 – 频繁项集的最大长度随事务平均宽度增加而增加 – 随着事务宽度的增加,事务中将
您可能关注的文档
- 0 3岁婴幼儿动作发展12月11.ppt
- 01附件4立式混流式水轮发电机组A级检修标准全解.doc
- 02慢性肾脏病饮食指导王静1.ppt
- 04第三章 白细胞抗原系统.ppt
- 05第五章 财政投资性支出精选.ppt
- 07不动产测绘管理.ppt
- 08受冲切构件承载力计算精选.ppt
- 09 1第8章目标市场营销战略案例.ppt
- 1 06 配线设备结构原理与防护全解.ppt
- 1 6年级每日一练2.doc
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
最近下载
- 绿色金融改革创新试点政策对企业经营绩效的影响研究.pdf VIP
- 赣州市南康区赞贤小学开展“扣好人生第一粒扣子——我爱我的祖国主题演讲比赛活动方案.doc
- 个人医保承诺书模板.docx VIP
- 绿色金融改革创新试点政策对企业绿色创新的影响-来源:创新与创业教育(第2022002期)-中南大学.pdf VIP
- 信息技术环境下的数学教学设计结题报告.doc VIP
- 国金证券:新型消费研究系列-便利店-小业态大生意-打造便利生活.pdf
- HIKARI富山奇立铺布机使用说明书.doc
- 部编版语文四年级上册第七单元大单元教学设计核心素养目标.pdf VIP
- 三级助理舞台灯光师题库考点(三).docx VIP
- (格式已排好)国家开放大学电大《计算机应用基础(专)》终结性考试大作业答案任务一.doc
文档评论(0)