- 8
- 0
- 约1.65万字
- 约 22页
- 2017-06-17 发布于新疆
- 举报
挖掘关联规则的快速算法(英)Rakesh Agrawal Ramakrishnan SrikantIBM阿尔马丁研究中心圣塔克莱拉市650亨利道95120证摘要:针对找出销售交易中大量数据库里项目之间的关联规则问题,我们提出两种与已知算法完全不同的新的算法来解决此问题.观察数据表明:这两种算法在从小问题的三个到大问题的多个度量的因子上都优于先前的算法.根据这两种算法的特点,我们还指出如何将它们合并才是一个最佳的混合算法,称为AprioriHybrid算法.按比例增大实验证明AprioriHybrid算法是随着交易数量按线性比例递增的,且它在交易大小和数据库中的项目上也有良好的递推性.引言条形码技术的广泛应用使得零售商在收集和存储大量商品的价格数据时十分方便,简称为货篮数据. 一条这样的数据记录通常都包括某个顾客的交易日期,交易中所购的物品项目. 成功的组织者视这种数据库为贸易市场基础结构的重要组成部分.他们专注于研究用数据库技术来推动市场信息化过程,这样市场经营者就可以有能力发展及实施为顾客制定购买产品的方案和策略[6].有关在货篮数据上挖掘关联规则的问题在[4]中已作介绍.举个例子:可能有98%的顾客在购买轮胎和汽车配件的同时接受了有关汽车的服务.找出所有这样的规则对于促进市场营销和提高顾客购买力是非常有价值的.另外还有价目表设计,商品上架设计,进货安排,根据购买行为模式对顾客进行分类.但这些应用中的数据库都是极其庞大的,因此,寻找一种快速的算法来完成此项任务是我们的当务之急.以下是关于这个问题[4]的一个表述:令={}是个不同项目的集合,给定一个事务数据库,其中每一个事务是中一些项目的集合,且都与一个唯一的标识符相联. 如果对于中的一个子集,有,我们就说事务包含.关联规则是形如的蕴含式,其中,且=.如果事务数据库中有%的事务包含的同时也包含,则称关联规则的置信度为%. 如果事务数据库中,有%的事务包含了,则称关联规则具有支持度%. 这个规则在我们讨论多项集的问题时比[4]中的阐述要简单很多.给定一个事务集,挖掘关联规则的问题就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则. 我们对事务集的内容属性方面不加以讨论,比如说,可以是一份数据文件,也可以是一张关系表,或者是一个关联表达式的结果.找出所有关联规则中的算法,我们称文章[4]提出的为AIS算法,文章[13]提出的为SETM算法.在本文中,我们介绍两种新的算法:Apriori和AprioriTid算法,基本上与先前的算法不同. 我们将用实验结果证明这两种算法优于先前算法.它们之间的差距主要体现在问题大小的增大及问题范围从小问题的三个到大问题的多个度量的因子上变化.接着我们讨论由Apriori和AprioriTid算法合并而成的混合算法(AprioriHybrid算法)是如何的优异.实验证明AprioriHybrid算法具有良好的递推性能,开启了挖掘关联规则在数据库中应用的可行性.找出关联规则属于数据库挖掘范畴[3,12],也称为数据库中的知识发现[21]. 类似地,但不直接可应用的工作还包括分类规则的介绍[8,11,22],因果关联规则的发现[19],学习逻辑定义[18],函数的数据拟合[15]以及簇[9,10].非公开性的有关机器学习文献的作品是在[20]中的KID3算法.如果应用在查找所有关联规则问题上,这个算法在与假定关联项的数目一样多的数据上进行运算时,运算量非常大.最近在数据库上的研究工作是由数据出发来定义关联函数[16].函数关联规则需要十分严格的条件.因此,定义一种函数规则为后,在[16]中描述的算法若从规则来考虑,就无法推出. 我们考虑的这些关联规则要符合实际性质. 规则的存在并不意味着也成立,因为后者可能不具备最小支持度. 同样的,规则和的存在也不意味着成立,因为后者可能也不具备最小置信度.曾有一个关于测定“有用性”或“有趣性”规则的实验[20]. 无论是有用的还是有趣的,通常都是依赖于运用的. 它需要圈内人员去提供材料,让所有人知道规则的发现过程以及让规则清晰明了,如[7,14]. 在本文中,对这些观点我们不加以讨论,除了指出它们在规则发现体系中的必要特征,可以利用我们的算法作为发现过程中的引擎.问题剖析和论文概要找出所有关联规则的问题可分解为以下两个小问题:找出事务中所有满足用户指定最小支持度的项集,每个项集的支持度就是包含项集的事务数.具有最小支持度的项集称为频繁项集,否则称为非频繁项集.在第二章,我们给出新的算法:Apriori和AprioriTid算法来解决这个问题.利用频繁项集来产生所需要的规则,这里有一种直接的算法.对于每个频繁项集,找出中所有非空子集,如果就生成关联规则(-).我们需要考虑所有的子集产生的多种
您可能关注的文档
- burp-suite-使用教程详解.docx
- DS1302涓流充电计时芯片.docx
- SHT1171传感器的温湿度测量.docx
- Lab-on-a-displaya new microparticle manipulation platform using a liquid crystal display (LCD)(英文).docx
- Wi-Fi, WiMax 和 WCDMA三种无线网络的信道衰减和均衡方法应用比较研究.docx
- 编织类型和纬纱密度对精纺毛织物起毛起球的影响.docx
- 不确定性桥梁车辆系统动态分析的模型.docx
- 毕设-基于自适应模板匹配的快速目标跟踪.docx
- 概率学方法在机械手动力学和运动学中的应用.docx
- 工程系统中基础的重要性及用途.docx
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- 2025年自来水供应专属承包合同样本版.docx VIP
- 2022化工安全与环保第二版课后题答案最新版(完整版).docx VIP
- ASUS华硕主板大师系列Z97-A 用户使用手册 (繁体中文).pdf
- 智能金融:AI 驱动的金融变革.pptx
- 人工智能在心血管无创影像中的应用:前沿技术与临床价值.pdf VIP
- 2025年氢燃料电池在数据中心储能应用趋势.docx
- 2026年中国铁路上海局集团有限公司招聘普通高校毕业生1236人备考题库及答案详解(考点梳理).docx VIP
- 井工煤矿复工复产开工第一课教案.docx VIP
- 社区居务监督培训课件.ppt VIP
- 心灵终结单位全代码.doc VIP
原创力文档

文档评论(0)