基于邻接网络的频繁项目集发现算法①-管理科学学报-天津大学.PDF

基于邻接网络的频繁项目集发现算法①-管理科学学报-天津大学.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于邻接网络的频繁项目集发现算法①-管理科学学报-天津大学.PDF

维普资讯 第 9卷第 3期 管 理 科 学 学 报 V01.9No.3 2006年 6月 JOURNALOFMANAGEMENTSCIENCESIN CHINA Jun.2006 基于邻接网络的频繁项 目集发现算法① 陈富赞,李敏强 (天津大学管理学院,天津 300072) 摘要:频繁项 目集发现一直都是关联规则研究领域中最关键的问题.文章给出了一个新的频 繁项 目集发现算法,该算法的特别之处在于事先利用有向图进行的一次数据预处理,在预处理 过程 中将数据库预先存贮为每个结点都有一个域来记录其支持度的项 目集邻接网络,从而把 复杂的频繁项 目集的发现问题转化为简单的图中搜索问题,这就大大提高了频繁项 目集发现 过程的效率 .同时为了有效地解决预处理过程 中的项 目集支持度计算问题,采用了一种纵 向的 数据库表示格式.最后对所采用的算法给出实验结果. 关键词 :数据挖掘 ;关联规则;邻接 网络 ;频繁项 目集 中图分类号 :TP311 文献标识码 :A 文章编号 :1007—9807(2006)03—0054—08 0 引 言 进了备选集 CK的产生过程 .Savasere等在 1995年 提出了一种把数据库分割处理的算法_4J,降低了 数据挖掘(datamining),也称为数据库 中的知 挖掘过程中I/O操作的次数 .以后更进一步地研 识发现 KDD(knowledgediscoveryindatabase),是从 究涉及分布和并行环境下挖掘关联规则 ,例如 , 大量原始数据中挖掘出隐含的、有用的、尚未发现 Cheung等提出了一种关联规则的快速分布式挖 的信息和知识.关联规则(associationrules)是数据 掘算法(FDM).目前所研究出的算法从性质上来 挖掘中的一个非常重要的研究内容.关联规则是 看大都是迭代性的,需要对数据库进行多次遍历, 表示数据库 中一组对象之间某种关联关系的规 显然算法的开销会很大.一些采用了抽样技术的 则 .关联规则挖掘的对象是交易 (Transactiona1)数 算法对数据的非均匀分布非常敏感,这也会对算 据库 .例如,关联规则可以表示 “购买了商品A和 法的性能产生非常巨大的影响.另外,大部分算法 B的顾客中有80%的人又购买了商品C和D”.关 都采用了复杂的内部数据结构. 联规则提供的信息可以用作商品目录设计、商场 针对 目前频繁项 目集发现算法中存在的迭代 货架的布置、生 产安排、具有 针对性 的市场营 次数多、数据结构复杂等问题,本文给出了一个新 销等 . 的算法 .算法 以图论为基础 ,将交易数据预先存贮 从大规模数据库 中发现出所有频繁的关联规 在一个有 向图——项 目集邻接网络 中,其 中不仅 则的任务是一项非常困难并且具有挑战性的任 可以通过有 向边表示项 目集间的次序关系,而且 务,而其中频繁项 目集的发现更是一个瓶颈问题 . 为了提高搜索效率还存贮了项 目集结点 的支持 围绕这个 问题,Agrawal等在 1994年提出 Apriori 度.这就使得数据库中频繁项 目集的发现问题转 算法l,基本的方法是重复扫描数据库,在第 化为邻接网络 中的搜索问题 .以往对项 目集支持 次扫描产生长度为 的频繁项 目集 .Park等人提 度的计算采用的都是遍历整个数据库,并累计其 出的DHP算法,使用哈希 (Hashing)技术有效地改 支持交易

您可能关注的文档

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档