- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进关联规则挖掘算法在自选餐厅应用研究
一种改进关联规则挖掘算法在自选餐厅应用研究
[摘 要] 本文详细分析传统关联规则Apriori算法的不足,提出了一种改进的关联规则快速挖掘算法。并使用该算法对某自选餐厅消费信息进行数理分析和仿真实验,挖掘了隐含的有用信息,具有重要的实用价值。
[关键词] 关联规则 自选餐厅 应用研究
一、引言
随着经济的日益发展,大中型自选餐厅在各个城市应运而生。本文根据传统关联规则Apriori算法的不足,提出了一种改进的关联规则快速挖掘算法,并使用该算法对某自选餐厅消费信息进行数理分析和仿真实验,挖掘了隐含的有用信息,为自选餐厅菜品设置和食品摆放提供决策性的作用,具有重要的实用价值。
二、数据挖掘中的关联规则技术
数据挖掘是一个多学科交叉研究领域,它融合了数据库技术等人工智能等新技术的研究成果。关联规则是当前数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系。
1.关联规则的思想
关联规则的一般性描述是:设I={i1,i2,…,im}是m个不同项目的集合,D是针对I的事物集合,每一事物包含若干个项目i1,i2,…,ik,…属于I,一个关联规则是一种蕴涵:X→Y,其中,XI,YI,并且X∩Y=Φ,X称作规则的前提,Y是结果。对于关联规则X→Y成立的条件是:
(1)它具有支持度S,即事务数据库D中至少有S%的事务同时包含X和Y。
(2)它具有置信度C,即在事务数据库D中包含X的事务至少有C%同时也包含Y。
最经典的关联规则挖掘算法是Apriori算法。
2.Apriori算法存在的不足
该算法核心思想把发现关联规则的工作通过迭代检索出事务数据库中的频繁项集和从频繁集中构造出满足用户最低信任度的规则。很显然在性能上有两个瓶颈:
(1)需要多次扫描数据库,需要很大的I/O负载,对每次循环,后选集中的每个元素都必须通过扫描数据库一次来验证其是否加入频繁集中。
(2)产生庞大的后选集,后选集是以指数形式增长的。如此大的后选集对时间和主存空间都是一个挑战。
三、一种改进的关联规则挖掘算法
1.改进算法的思想
??该算法首先构造事务规则树并合并为规则链,然后在规则链上构造事务规则树模型,对所提取到的项目序列进行计算,就可求出所有的关联规则。该算法不需要查找频繁项,直接找出关联规则,方法快捷灵活,特别适用于动态的、海量的数据库关联规则挖掘。
2.改进算法的描述
首先遍历数据库找出有序集L={i1,i2,…,ik}为满足支持度的频繁1项集,令M={i1,i2,…,ik}是与L一一对应的结点集合。
(1)开始。
(2)以i1,i2,…,ik为根结点分别构造事务规则树T1,T2,…,Tk。循环:m以1为步长,从1到k,构造事务规则树Tm。
①先对i1,i2,…,ik进行排序:将项目im放到有序集M的第1个位置。对其余项目按已有先后位置重新排列下标号,形成新的有序集:M’={i1’,i2’,…,ik’}。
②求解规则链第1层项目序列集合L1。令i1’的事务集与M’中的其他项目的事务集进行‘交’运算,将满足支持度的项集形成序列保存到L1中。其中,每个项目序列里i1’式为第一元素,其他项目为第二元素。
③循环:t以1为步长,从2到k,求解规则链第2,3,…k的层项目序列集合L1,L2,…Lk;循环:j以1为步长,从1到t-l,求解L1,对L2,L3,…LK-1进行扩充。
④根据L1,L2,…Lk里的序列,按照路径规则法求出所有的关联规则放入规则集P中。
将n条规则链求出的项目序列放人集合P中。P=P1∪P2∪…∪Pn。对P中的序列运用路径规则法和规则过滤求出无冗余的关联规则。
(3)对所求出的事务规则树T1,T2,…,Tk的规则进行规则过滤以消除冗余。
(4)结束。
四、在自选餐厅的应用研究
实验数据来自重庆某自选餐厅2007年的销售信息库,记录总数为88695条。考察啤酒与其他食品销售的关联规则挖掘。扫描数据库信息如下:
消费啤酒:15354人;消费烧烤:9872人;消费火锅:10681人(清汤:3724人;红汤:6957人);消费啤酒和烧烤:5864人;消费啤酒又消费火锅:8756人(啤酒和清汤:1026人;啤酒和红汤:7730人);消费烧烤和火锅:892人(烧烤和清汤:635人:烧烤和红汤:257人)。记消费啤酒为事务A,消费烧烤为事务B,消费火锅为事务C。消费清汤为事务C1,消费红汤为事务C2。则计算出如下关联规则:
1.support(AB)==P(A∪B)=5864/88695=6.61%
文档评论(0)