启发式搜索方法在关联规则挖掘中的应用.doc

下载文档 降价啦

14
0
约5.91千字
约 9页
2017-11-01 发布于重庆
举报
版权申诉
保障服务

启发式搜索方法在关联规则挖掘中的应用.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

启发式搜索方法在关联规则挖掘中的应用

启发式搜索方法在关联规则挖掘中的应用摘要: 本文介绍了蚁群算法、遗传算法、模拟退火算法等启发式方法在关联规则挖掘中的应用。【关键词】关联规则挖掘；蚁群算法；遗传算法; 模拟退火算法 1 关联规则关联规则[1]是形如X =>Y的规则，其中X和Y是关于数据库中属性取值的断言：由于某些事件的发生而引起另外一些事件的发生。设T是事务数据，即T={t1, t2,?, tm}，其中ti(1≤i≤m)是每个事务的数据，这些数据称为数据项。I是T中所有数据项（物品）的集合,即I={i1, i2,?，in}，ij(1≤j≤n)是T中的一个数据项。每个事务中含有I的一个子集。关联规则是一种蕴含关系：X =>Y，其中，，且X∩Y=Φ 。 (1) 支持度(support)表示X=>Y在T事务数据中出现的普遍程度，称关联规则X=> Y在事务数据库T中具有大小为s%的支持度,如果物品集X=>Y的支持度为s%； (2) 可信度 (confidence) 说明X=>Y成立的必然程度，称规则X=>Y在事务数据库T中具有大小为c%的可信度，如果T中支持物品集X的事务中有c%的事务同时也支持物品集Y； (3) 如果支持度和可信度都超过各自的阈值，则X =>Y可以看成是T中的一个有意义的关联规则。 2 蚁群算法 2.1 蚁群算法基本原理现实生活中单个蚂蚁的能力和智力非常简单，但它们能通过相互协调、分工、合作来完成筑巢、觅食、迁徙、清扫蚁穴等复杂行为，尤其是蚂蚁有能力在没有任何可见提示的条件下找到从蚁穴到食物源的最短路径，并且能随环境的变化而变化地搜索新的路径，产生新的选择。这是因为蚂蚁在其走过的路上会分泌一种信息素，其他的蚂蚁能够感知这种物质的存在和强度，并以此指导自己的运动方向，使其倾向于朝着信息素强度高的方向移动。蚁群算法就是从自然界中真实蚂蚁觅食的群体行为中得到启发而提出的。一个基本的蚁群算法[2]可以表述如下：初始时刻，各条路径上的信息素量相等，设τij(0) = C（C 为常数），蚂蚁k（k=1,2,3,…,m）在运动过程中根据各条路径上的信息量决定转移方向。蚂蚁系统所使用的转移规则被称为随机比例规则，在时刻 t，蚂蚁 k 从城市i选择城市j 的转移概率(t)为： (2. 1) 其中，Jk(i)= {1，2，……，n}- tabuk 表示蚂蚁 k 下一步允许选择的城市。列表tabuk记录了蚂蚁 k 在本次迭代中已经走过的城市，不允许该蚂蚁在本次循环中再经过这些城市。当所有 n 座城市都加入到tabuk中时，蚂蚁 k 便完成了一次周游，此时蚂蚁 k 所走过的路径便是 TSP 问题的一个可行解。(2. 1)式中的ηij 是一个启发式因子，被称为能见度因子。在 AS 算法中，ηij 通常取城市 i 与城市 j 之间距离的倒数。α和β分别反映了在蚂蚁的运动过程中已积累的信息和启发信息的相对重要程度。当所有蚂蚁完成一次周游后，各路径上的信息素根据（2. 2）式更新。 (2. 2) (2. 3) 其中ρ(0 < ρ <1)表示路径上信息素的挥发系数，1-ρ 表示信息素的持久系数；△τij表示本次迭代边 (ij) 上信息素的增量。△τkij表示第 k 只蚂蚁在本次迭代中留在边(ij) 上的信息素量。如果蚂蚁 k 没有经过边(ij)，则△τkij的值为0。△τkij表示为： (2. 4) 其中，Q 为正常数，Lk 表示第 k 只蚂蚁在本次周游中所走过路径的长度。 2.2 蚁群算法在关联规则中应用基于蚂蚁寻路的特点和关联规则中规则前件和后件的组织结构，首先对数据库中的数据进行预处理，就是将连续的属性离散化掉，形成一个一个属性值的分区。以I中的每一个属性作为超顶点，以该属性值的每一个分区作为超顶点的子顶点，来构建一个无向完全图，每对超顶点间根据子顶点的数目可以构成多条路径供蚂蚁选择。然后将m只蚂蚁分为m/2对，搜索过程由每对蚂蚁合作完成，其中一只蚂蚁在无向图上搜索规则前件，该对蚂蚁中的另一只在剩余的超顶点中寻找规则后件。当每对蚂蚁中一只搜索频繁项集合I1 时, 对应的蚂蚁则在剩余的超顶点上搜索频繁项集合I2。根据规则的支持度和可信度, 决定规则I1 =>I2和I2 =>I1的取舍。逐步固定频繁项集中数据项的个数, 因此算法只需循环a/2次[3]。蚂蚁k 在超顶点i上的第p 子顶点位置根据如下公式选择