- 20
- 0
- 约 4页
- 2017-08-15 发布于河南
- 举报
宏商超市购物篮分析案例
一、案例背景
宏商超市是位于华中科技大学附近的一个中型超市,月交易额在百万元左右,在售商品有近120余种(商品分类的粒度定位在品种,而不管品牌和型号的差异)。每月5日前,超市的采购经理需要在一定资金约束下,确定本月采购的品种与数量,也就是要制定采购商品的组合,其中如何确定相关商品的组合是个重要问题,由于没有合适的技术手段,采购组合决策只能是拍脑袋、靠经验。例如,考虑同学一般都会同时买方便面和火腿肠,在确定采购组合时,就同比例地采购方便面和火腿肠。
学习《商业数据挖掘》课程的4位同学组成小组,通过介绍数据挖掘技术及其应用前景,超市经理同意让这4位同学对超市的销售数据进行分析,提供采购组合决策方面的建议。
二、解决方案
利用数据挖掘中的关联规则挖掘技术,借助WEKA系统,对选取的超市销售数据进行分析,找出有价值的隐含购买模式,为组合采购提供参考建议。
数据收集
从超市现有信息系统中导出共计15755张购物小票数据,包含78379行购物记录明细数据。
2)数据预处理
数据库中原始记录的形式如图1所示,由于这种格式无法转换为所需的arff文件,因此先将这张表进行转置。
图 1
进行转置的SQL代码如下:
declare @sql varchar(8000)
set @sql = select TicketNo
select @sql = @sql + , max(case GoodsTypeID when + GoodsTypeID + then 1 else ? end) [ + GoodsTypeID + ]
from (select distinct GoodsTypeID from SelectGoods) as a
set @sql = @sql + from SelectGoods group by TicketNo
exec(@sql)
转置后,表的结构如图2所示。然后可直接将转置后的表导出为Excel文件。
图 2
得到Excel文件后,再按如下步骤继续预处理可得到实验所需的arff文件,用记事本打开arff文件,把numerical换成{‘1’, ’?’},其中’1’表示购买,’?’在Weka里是空,即没有购买。
3)规则挖掘
首先确定Minimum support和Minimum confidence这两个参数。从理论上说,希望在一个较合适的support的基础上使confidence尽可能的大。经过尝试后,最终将参数设为s=0.01,c=70%,
运行结果如下:
Apriori
=======
Minimum support: 0.01 (58 instances)
Minimum metric confidence: 0.7
Number of cycles performed: 20
Generated sets of large itemsets:
Size of set of large itemsets L(1): 49
Size of set of large itemsets L(2): 843
Size of set of large itemsets L(3): 1788
Size of set of large itemsets L(4): 492
Size of set of large itemsets L(5): 4
Best rules found:
1. 04003=1 10003=1 12001=1 79 == 08006=1 63 conf:(0.8)
2. 02002=1 04003=1 02001=1 90 == 08006=1 71 conf:(0.79)
3. 03003=1 06004=1 88 == 08006=1 68 conf:(0.77)
4. 08005=1 05001=1 131 == 08006=1 100 conf:(0.76)
5. 06002=1 04001=1 02001=1 80 == 08006=1 61 conf:(0.76)
6. 06002=1 01001=1 07003=1 78 == 08006=1 59 conf:(0.76)
7. 08003=1 05001=1 125 == 08006=1 94 conf:(0.75)
8. 10002=1 04001=1 116 == 08006=1 87 conf:(0.75)
9. 08005=1 10006=
原创力文档

文档评论(0)