- 48
- 0
- 约2.16千字
- 约 7页
- 2020-03-26 发布于江西
- 举报
数据挖掘实验
数据挖掘实验报告
——Apriori 算法和 FP 增长算法挖掘频繁项集
问题描述:
一、
TID
数据库有 5 个事务如:表-0。设 min_sup=60%,min_conf=80%。
购买的商品
T100 {M,O,N,K,E,Y}
T200 {D,O,N,K,E,Y}
T300 {M,A,K,E}
T400 {M,U,C,K,Y}
T500 {C,O,O,K,I,E}
表-0
分别使用 Apriori 和 FP 增长算法找出所有频繁项集。并比较两种挖掘过程的效率。 列举所有与下面元规则匹配的强关联规则(给出支持度 s 和置信度 c),其中,X 是代 表顾客的变量,itemi 是表示项的变量(如“A”,“B”):
? ?? ∈ ??????????????????????,???????? (??,????????1) ∧ ????????(??,????????2)?????????(??,????????3) [??,??]
问题分析:
分别使用 Apriori 算法和 FP 算法逐步求的所有的频繁项集,记录各自使用的扫描事务 的总次数,用于探究各自的效率。
对于问题二可以采取如下步骤解决:首先找出所有三项频繁项集,然后按照元规则匹 配出关联规则,最后利用支持度和置信度选出强关联规则。
解决方案:
?
1)
1.采用 Aporior 算法挖掘所有频繁项集的步骤:
扫描数据库,对每个候选计数,得频繁一项候选集 C1 如表-1:
项集
支持度计数
{A}
{C}
{D}
{E}
{I}
{K}
{M}
{N}
{O}
{U}
{Y}
1
2
1
4
1
5
3
2
3
1
3
2)
数据挖掘实验
表-1
由比较候选支持度计数与最小支持度计数(min_sup*5=3)得频繁一项集 L1 如表-2:
项集
支持度计数
{E}
{K}
{M}
{O}
{Y}
4
5
3
3
3
表-2
3)
连接(L1
? ??1
)得频繁二项候选集 C2 如表-3:
项集
支持度计数
{E,K }
{E,M}
{E,O }
{E,Y}
{K,M }
{K,O}
{K,Y}
{M,O}
{M,Y}
{O,Y}
4
2
3
2
3
3
3
1
2
2
4)
表-3
扫描数据库由比较候选支持度计数与最小支持度计数得频繁二项集 L2 如表-4:
项集
支持度计数
{E,K }
{E,O }
{K,M }
{K,O}
{K,Y}
4
3
3
3
3
5)
表-4
重复步骤 3)(此处可以不用扫描数据库而是利用 Aprioir 剪枝进行选择)求的频繁三项 候选集 C3 如表-5:
项集
支持度计数
{E,K,O }
{E,K,M }
{E,K,Y }
{K,M,O}
{K,M,Y}
{K,O,Y}
3
2
2
1
2
2
6)
表-5
使用 Apriori 剪枝可以去掉 C3 中的{E,K,M},{E,K,Y},{K,M,O},{K,M,Y},{K,Y,O}(因为这些项集 中存在不属于 L2 中的子集),求的 L3。
Null{}E:
Null{}
E:
数据挖掘实验
L3=={E,K,O}
即求的所有频繁项集 L1,L2,L3。
2.采用 FP 增长算法挖掘所有频繁项集得步骤:
1) 扫描事务数据库,收集频繁一项集 L 和对应的支持度计数并按降序排列得表-6:
项集
支持度计数
{K}
{E}
{M}
{Y}
{O}
5
4
3
3
3
2)
再次扫描事务数据库,构造 FP 树如图-1 所示:
K:
5
M:1
4
M:2
Y:1
Y:1
O:1
Y:1
O:1
O:1
频繁模式信息的 FP 树 图-1
3)
通过创建条件模式基挖掘 FP 树:
项
条件模式基
条件 FP 树
频繁项集
Y
{{K,E,M,Y:1},{K,E,Y:1},{K,M,Y:1
}}
K:3
{K,Y}
M
{{K,E,M:2},{K,M:1}}
K:3
{K,M}
O
{{K,E,M,Y:1},{K,E,Y:1},{K,E:1}}
K:3,E:3
{K,O},{E,O},{K,E,O}
E
{K:5}
{K:5}
{K,E}
即求的所有频繁项集。
效率分析:在 Apriori 算法中 1)2)3)4)步中需要扫描数据库多次。而在 FP 增长算法中 只需要在 1)2)步骤中扫描数据库。因此 FP 增长算法的效率比 Apriori 算法效率高!
EK OE O
E
K O
E O
?
数据挖掘实验
由频繁三项集 L3={K,E,O}产生关联规则且匹配元规则的关联规则有:
K
∧ ???
∧ ???
∧ ???
*注:s=3,c=1.
Confidence=2/4min_conf=80%
Confidence=100
您可能关注的文档
- 数学模型之微分方程及其MATLAB求解.docx
- 数学核心素养视角下小学数学应如何创新教学方法.docx
- 数学活动《巧算周长》教学设计.docx
- 数学浓度问题.docx
- 数学游戏教学(小学).docx
- 数学浙教版八年级数学下册期末试题附答案.docx
- 数学物理方法期末考试试题.docx
- 数学特色作业设计.docx
- 数学特长生培养计划.docx
- 数学特长生总结.docx
- 商业航天的融资渠道与风险研究_2026年1月.docx
- 智慧路灯与城市安防联动布控策略研究_2026年1月.docx
- 元宇宙实验室在工科教学中的沉浸效果评估_2026年1月.docx
- 某公司获国际海底管理局许可采矿但环保组织抗议破坏未知生态系统_2026年1月.docx
- 2026年及未来5年市场数据中国网约车行业发展前景预测及投资战略研究报告.docx
- 2026年及未来5年市场数据中国网络零售产业竞争现状及十五五投资动向研究报告.docx
- 2026年及未来5年市场数据中国卫星通信设备行业市场需求与投资战略规划分析报告.docx
- 2026年及未来5年市场数据中国卫星导航市场竞争力分析及投资战略预测研发报告.docx
- 2026年及未来5年市场数据中国网络教育行业前景研究与投资战略研究报告.docx
- 2026年及未来5年市场数据中国微型滤波器行业市场专项调研及投资前景可行性预测报告.docx
最近下载
- 2024年上海市实验学校自主招生(竞赛)九年级物理----浮力练习.docx VIP
- 2024风电技术教程07半直驱-中速永磁风力发电机组.pptx
- 2024年上海市实验学校自主招生(竞赛)九年级物理----简单机械功和能练习.docx VIP
- 完全平方公式变形公式专题.docx VIP
- 女性慢性盆腔痛诊治中国专家共识.pptx VIP
- 石膏固定护理规范与实施要点.pptx VIP
- 2024年上海市实验学校自主招生(竞赛)九年级物理----密度和压强练习.docx VIP
- 照护师考核题目及答案.docx VIP
- 注册安全工程师教材下载 安全技术.doc VIP
- 2024年上海市实验学校自主招生(竞赛)九年级物理----电路练习(2).docx VIP
原创力文档

文档评论(0)