第6章:关联分析 — 基本概念和算法 关联分析的预备知识 频繁项集的产生 频繁项集产生的优化策略 计算复杂度的影响因素 规则产生 关联模式的评估 计算复杂度的影响因素 最小支持度阈值的选择 低支持度阈值导致更多频繁项集 将会增加候选项集的个数和频繁项集的最大长度 数据库的维度,即项的个数 需要更多空间保存每个项的支持度计数 如果频繁项集的个数增加,则计算量和 I/O开销也增加 数据库的大小 由于Apriori多次访问数据库,算法的运行时间将随事务个数的增加而增加 平均事务长度 频繁项集的最大长度随事务的平均宽度增加而增加 因为事务的子集个数随着其长度的增加而增加,会增加支持度计数时hash树的遍历次数 练习题 将Apriori算法应用于下面的事务数据库,最小支持度为50%,画出Apriori算法的运行过程。 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {B, C, E} Itemset sup {B, C, E} 2 第6章:关联分析 — 基本概念和算法 关联分析的预备知识 频繁项集的产生 频繁项集产生的优化策略 计算复杂度的影响因素 规则产生 关联模式的评估 规则产生 给定一个频繁项集L,寻找L的所有非空真子集 f 使 f ? L-f 的置信度大于等于给定的置信度阈值 如果{A,B,C,D}是频繁项集,则候选的规则包括: ABC ?D, ABD ?C, ACD ?B, BCD ?A, A ?BCD, B ?ACD, C ?ABD, D ?ABCAB ?CD, AC ? BD, AD ? BC, BC ?AD, BD ?AC, CD ?AB, 如果|L| = k,则有2k – 2个候选的关联规则 (忽略 L ? ? 和 ? ? L) 规则产生 如何从频繁项集高效生成规则? 一般地说,置信度没有反单调性质 比如,c(ABC ?D) 可以大于或小于 c(AB ?D) 但从同一个项集生成的规则的置信度具有反单调性质 比如,L = {A,B,C,D}: c(ABC ? D) ? c(AB ? CD) ? c(A ? BCD) 针对规则后件的项集,置信度是反单调的: 如果规则 X? Y-X 不满足置信度阈值, 则形如X’?Y-X’的规则也不满足置信度阈值, 其中X’是X的子集 规则产生的Apriori算法 假设规则BCD=A具有较低置信度,则可以丢弃后件包含A的所有规则。 剪掉的规则 低置信度规则 规则格 规则产生的Apriori算法 [候选产生] 通过合并两个规则的后件产生候选规则 比如合并(CD=AB,BD=AC)得到候选规则D = ABC [候选前剪枝] 如果规则 AD=BC 不满足置信度阈值, 则D=ABC也不满足置信度阈值, 删除该规则 [置信度计算] [候选后剪枝] 第6章:关联分析 — 基本概念和算法 关联分析的预备知识 频繁项集的产生 频繁项集产生的优化策略 计算复杂度的影响因素 规则产生 关联模式的评估 关联模式评估 关联规则算法倾向于产生大量的规则 很多产生的规则是不感兴趣的或冗余的 如果 {A,B,C} ? {D} 和 {A,B} ? {D} 具有相同的支持度和置信度,则{A,B,C} ? {D} 是冗余的 兴趣度可以用于对产生的规则进行过滤或排序 在原来的关联规则定义中,支持度和置信度是唯一使用的度量 兴趣度度量 客观度量: 基于从数据推导出的统计量来确定模式是否有趣 比如一些关联性度量 (支持度、置信度、拉普拉斯、Gini指标、互信息、Jaccard,等等) 主观度量: 根据用户的解释来确定模式是否有趣 如果一个模式揭示料想不到的信息,那么它是主观有趣的 (Silberschatz Tuzhilin) 如果一个模式是可操作的 (actionable),即提供导致有益行动的有用信息,那么它是主观有趣的 (Silberschatz Tuzhilin) 兴趣度的应用 兴趣度度量 计算客观兴
您可能关注的文档
- 可信网站信用评价产品.ppt
- 包头食药局联网监控系统解决方案.pptx
- 大数据时代的数据挖掘与商务智能三.ppt
- 主打高价值期交产品卖点再挖掘.pptx
- 游戏的观察与评价课件.ppt
- 病例对照研究设计与评价.pptx
- XSC-04-汽车4S销售店展厅管理.ppt
- 液压工作回路.ppt
- 德阳银行数据中心一期项目建设成果汇报.pptx
- 项目评价与项目管理幻灯片.ppt
- 云南省涧南彝族自治县2026届中考三模数学试题含解析.doc
- 重庆市巫溪中学2026届中考三模生物试题含解析.doc
- 2026届甘肃省张掖市高台县重点名校中考数学模拟精编试卷含解析.doc
- 2026届重庆一中学中考生物最后冲刺浓缩精华卷含解析.doc
- 2026届江西省萍乡市安源区中考生物模试卷含解析.doc
- 2026届山东省曲阜师范大附属实验校中考生物考前最后一卷含解析.doc
- 山西省运城市垣曲县重点中学2026届中考生物考前最后一卷含解析.doc
- 湖北省谷城县达标名校2026届中考生物押题卷含解析.doc
- 2026届河南省三门峡市义马二中中考生物考试模拟冲刺卷含解析.doc
- 树立和践行正确政绩观重点纠治十种偏差问题对照查摆清单(100条).docx
最近下载
- 计算机江苏对口单招文化综合理论试卷 (2).doc VIP
- 2025年铜陵职业技术学院单招职业技能测试题库(研优卷).docx VIP
- 《公务用车管理规范与使用制度》.docx VIP
- DB21_T 4236-2025 地理标志产品 大连虾片.pdf VIP
- 学前教育学 课件 第1、2章 绪论;学前教育的目标、内容的方法.ppt
- 灭火器材灭火培训.pptx VIP
- DB23T 2799-2021 灌入式复合混凝土路面设计与施工技术规范.docx VIP
- DB53_T 1443.2-2025 食品安全应急抽检技术规范 第2部分:自然灾害.docx VIP
- 板蓝根栽培技术讲座课件PPT.ppt
- DB32_T 5214-2025 合作机构经办社保业务服务规范.docx VIP
原创力文档

文档评论(0)