- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的Apriori算法.doc
总第 246 期
2010 年第 4 期
计算机与数字工程
Computer D ig ital Eng ineer ing
V o l. 38 No . 4
30
一种改进的
Apriori
算法
*
1)
朱
庆
恰汗
合孜尔
2)
2)
( 新疆农业大学计算机与信息工程学 院
乌鲁木齐
830052) ( 新疆农业大学数理学院
乌鲁 木齐
830052)
摘
要
关联规则挖掘是数据挖掘研究的重要内容之一。通过对关联规则挖掘算法的详细分 析, 提出了一种基于有向
关联图的频繁项集挖掘算法, 该方法仅需扫描 数据库一次, 避免了 Aprior i 算法 繁琐的连 接和删除步 骤, 从 而提高了搜 索速
度。
关键词 数据挖掘; 关联规则; 频繁项集; 有向关 联图
中图分类号 T P311
An Improved Apriori Algorithm
Z hu Q ing
1)
Q ia han
Hezier
2)
1)
( Co llege of Com puter and I nfo rmation Eng ineer ing,
Xinjiang A gr icultural U niver sity
2)
, U r umqi
830052)
( College o f M athematics and Physics,
Xinjiang Ag r icultural U niversity
,
U r umqi
830052)
Abstract
M ining asso ciation r ules is one o f t he most impo rtant topics in data mining.
After the method for mining as
sociation r ules is analyzed, a alg or ithm o f fr equent itemsets mining based on directed association g raph is put for war d. It only
needed o ne times of scanning, and had avo ided the tedious co nnection st ep and the deletio n step of the A priori algo rithm, but
also has the vir tues in hig h speed.
Key Words data mining, asso ciatio n r ules, fr equent it emset, directed association gr aph
Class Number T P311
1
引言
数据挖掘是从大型数据库的大量原始数据中
是高效迅速找出数据集 D 中全部频繁项集, 这是问
题的中心, 是评价关联规则挖掘算法的标准; 问题
二可由最小置信度的定义求解比较容易。目前, 所
提取人们感兴趣的、隐含的、具有潜在应用价值的
信息和知识 。在数据挖掘中, 关联规则挖掘算
法一直是研究的重点和热点问题, 典型的应用就是
购物篮分析。该过程通过挖掘顾客放入购物篮中
的不同商品之间的关联, 分析顾客的购买习惯, 从
而应用于商品货架设计、货存安排以及其他商业用
途。关联规则挖掘可以发现隐藏在数据库中的项
集之间的关联关系, 从大量事务记录中发现有趣的
关联, 帮助决策者制定计划。
关联规则挖掘分为两个子问题: 一是根据最小
支持度找出数据集 D 中的所有频集; 二是根据频繁
项目集和最小置信找出关联规则。问题一的任务
有的关联规则挖掘算法都是针对问题一提出的, 它
是决定关联规则挖掘算法性能的关键; 由于数据库
中的事务集通常是相当庞大的, 因此需要高效的算
法来挖掘这些关联规则。关联规则挖掘中发现频
繁项目集是关键的技术和步骤, 本文提出一种基于
有向关联图的频繁项集挖掘算法, 只须扫描一遍数
据库, 并可以大大减少连接操作。
2 A p rior i 算法
最经典的关联规则挖掘算法是 A priori 算法,
它 是 由 R. A g raw al 和 R . Srikant 于 1994 提 出
的 , A priori 算法是一种宽度优先的算法, 采用
*
收稿日期: 2009 年 10 月 28 日, 修回日期: 2009 年 11 月 30 日
作者简介: 朱庆, 男, 硕士研究生, 研究方向: 数据挖掘。恰汗
合孜 尔, 男, 博 士, 教授,
文档评论(0)