- 4
- 0
- 约5.76千字
- 约 3页
- 2019-10-22 发布于江西
- 举报
执关联规则中 Apriori 算法的研究与改进宋小小
执
关联规则中 Apriori 算法的
研究与改进
宋小小 陈晓辉 刘冲 桂林理工大学 广西 541004
摘要:关联规则反映了大量数据中项集间的相互依存性和关联性。Apriori 算法是关联规则挖掘中的经典算法,目前已 有很多的改进版本,但大多存在多次扫描数据库,项集生成瓶颈和模式匹配频繁的问题,算法效率比较低。本文深入的分析 研究关联规则 Apriori 算法,改进候选频繁项目集的连接和剪枝策略,改进对事务的处理方式,减少模式匹配所需的时间开 销,并给出了改进算法。
关键词:数据挖掘;关联规则;Apriori;频繁项集
0 引言
数据挖掘是一门新兴起的交叉学科,主要研究事务数据 库、关系数据库中的数据项之间潜在有用的新颖的规律。它 的主要方法包括:分类、关联规则、聚类、特征、回归分析、 变化和偏差分析等。关联规则挖掘就是从海量的数据中寻找 数据项间的关联关系,它是数据挖掘领域中研究的热点问 题。关联规则表示数据库中一组对象之间具有某种关联关系 的规则,其主要挖掘对象是事务数据库。这种数据库大量的 应用在零售业,而条形码技术的发展使得数据的收集变得更 加方便、更加完整。关联规则就是在这些交易项目中去寻找 某种关联关系。1993 年,Agrawal 等人首先提出了挖掘顾客 交易项目中项集间的关联规则问题,此后诸多的研究人员对 关联规则挖掘问题进行了大量的研究与改进。
1 Apriori 算法
1.1 算法简介
Apriori 算法是 1993 年由 Agrawal 等人提出的一个经典 的挖掘关联规则算法,它通过对事务数据库的多趟扫描来发 现所有的频繁项目集。
该算法采用“逐层搜索”的迭代方法,利用向下封闭 特性,由 k–频繁项目集生成(k+1)–频繁项目集。第一趟扫
描数据库计算出 1–频繁项目集集合(记为:L 1 );接着,反复
行下面的两个步骤计算 k-频繁项目集,直到生成 k-频繁项目
集的集合(记为:L k )为空:
(1) 连接:(k–1)–频繁项目集集合进行自连接运算,生成 候选 k-项目集集合。
(2) 剪枝:上一步生成的候选 k–项目集集合是 k–频繁项 目集集合的超集。通过扫描数据库计算候选 k–项目集集合中 每个候选项目集的支持度,并与给定的最小支持度进行比 较,较大的就是 k–频繁项目集。
1.2 算法分析
经典的 Apriori 挖掘算法在执行“连接,剪枝”步骤中,
需要多次扫描数据库并生成大量的候选项目集。当数据库太
大或者挖掘层次太深时, 算法耗时太多甚至无法完成。在剪 枝步,由大量的候选项目集而造成的频繁模式匹配问题,这 些都严重影响了 Apriori 算法的效率。
1.3 算法的基本原理
性质 1 K 项数据项目集是频繁项目集的必要条件是它 的所有 k-1 项子集均是频繁项目集。
性质 2 K 频繁项目集的所有 K–1 维非空子集均是频繁 项目集。
定理 1 若 K 维数据项目集 X = { i 1 , i 2 ,…,i k }中,
存在一个 j ? X,使得|L k ? 1 (j)| k – 1,则 X 不是频繁项目集。
,
作者简介:宋小小(1987-),男,桂林理工大学信息科学与工程学院硕士研究生,研究方向:数据库,数 据挖掘。陈晓辉(1963-),男,副教授, 研究方向:网络数据库,人工智能,数据挖掘。刘冲(1986-),男 硕士研究生,研究方向:数据库,数据挖掘。
其中,|L k ? 1 (j)|
其中,|L k ? 1 (j)|表示(K–1)维频繁项目集的集合 L k ? 1 中
包含 j 的个数。
证明 假设 X 是 K 维频繁项目集,根据性质 1,X 的 k 个(k–1)项目子集都在 L k ? 1 中,其中每一个项目 p ? L 均出现 k–1 次,故?p ? L,均有| L k ? 1 (p)| ? k–1,这与条件矛盾,故 X 不是频繁项目集。
推论 1 如果 k–1 维频繁项集集合 L k ? 1 中包含单个项目
i 的个数小于 k–1,则 i 不可能包含在频繁 k–项集中。
2 改进的 Apriori 算法
Apriori 算法中对数据库的处理,目前普遍采用的是水平 数据库结构。本文借鉴文献的思想,将水平结构变换为垂直 对应关系。经过这样变换,很容易计算 1-项目集的支持度, 同时很容易计算候选项目集的支持度,并且只在计算 1–项目 集时需要对整个数据库进行访问。
改进的 Apriori 算法思路如下:
(1) 首先扫描整个数据库,记录支持每个项目的事务 ID 号。经过统计后,计算出每个项目的支持度,并与最小支持 度进行比较,进而得出 1–项目集。
(2) 由
您可能关注的文档
- 公选:食品营养与健康 课件.ppt
- 公益自行车灯箱媒体运作及销售团队建设的建议和计划.doc
- 公用工程询价表.doc
- 公有住宅售后小区物业服务费调整有关政策解答.doc
- 公元干支对照年表.doc
- 公允价值计量模式层级转换中美案例比较研究.docx
- 公允价值计量应用研究.docx
- 公允价值计量与管理层薪酬契约.docx
- 公证法律知识讲座-幻灯.ppt
- 共创光伏生产基地光电建筑应用项目技术标.docx
- 散文题型03 理解分析词句(题型专练)(全国通用)(解析版)-2026年高考语文二轮复习讲练.docx
- 考前押题10 阅读理解之应用文——关注生活 学以致用(原卷版)(押题训练)2026年高考英语阅读理解突破策略及押题(全国通用).docx
- 清单04 综合性学习之语言表达(仿写邀请转述劝说) 活动策划(知识 方法 能力清单)(解析版)-2026年中考语文二轮复习讲练(全国通用).docx
- 清单09 古诗文对比阅读之内容 情感 写法对比 语言 炼字 拓展探究(知识 方法 能力清单)(解析版)-2026年中考语文二轮复习讲练(全国通用).docx
- 小说易错02 重点情节理解偏差(选择题)(易错专练)(全国通用)(原卷版)-2026年高考语文二轮复习讲练.docx
- 专题01 声现象(题型专练)(全国通用)(原卷版)2026年中考物理二轮复习讲练.docx
- 清单08 文言文(议论类 书信应用类)阅读之论点把握 文体特点(知识 方法 能力清单)(解析版)-2026年中考语文二轮复习讲练(全国通用).docx
- 清单11 记叙文阅读之朗读设计 表达技巧 主旨情感 开放探究(知识 方法 能力清单)(解析版)-2026年中考语文二轮复习讲练(全国通用).docx
- 语言清单05 语法填空中的词类(五)无提示词--连词(全国通用)(原卷版)2026年高考英语二轮复习讲练.docx
- 第04讲 想象探索与科学精神(《西游记》《海底两万里》《昆虫记》全国通用(讲义)(解析版)2026年中考语文一轮复习讲练.docx
最近下载
- 2025云南农业大学后勤服务有限公司招聘32人备考题库带答案解析.docx VIP
- 松材线虫课件.pptx VIP
- 2023年洁净车间生产环境控制教材方案模板.pptx VIP
- 【PPT】品管圈(QCC)降低科室一次性耗材浪费率 .pptx
- 2026高中数学复习-专题19 立体几何初步(Ⅱ)(七大题型+模拟精练)(解析版).pdf VIP
- 2025年教师职称-山西-山西教师职称(基础知识、综合素质、小学体育)历年参考题典型考点含答案解析.docx VIP
- isilon Drive Support Package 驱动支持包 1.37 发布说明(英文).pdf VIP
- 企业消防安全知识培训.pptx
- 山东省阳谷县第二中学高中音乐:古老的声音教案.doc VIP
- 常用建筑材料图例整理.doc VIP
原创力文档

文档评论(0)