基于邻接网络的频繁项目集发现算法①-管理科学学报-天津大学.PDF

下载文档 降价啦

1
0
约2.3万字
约 8页
2017-08-12 发布于天津
举报
版权申诉
保障服务

基于邻接网络的频繁项目集发现算法①-管理科学学报-天津大学.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

维普资讯第 9卷第 3期管理科学学报 V01．9No．3 2006年 6月 JOURNALOFMANAGEMENTSCIENCESIN CHINA Jun．2006 基于邻接网络的频繁项目集发现算法① 陈富赞，李敏强 (天津大学管理学院，天津 300072) 摘要：频繁项目集发现一直都是关联规则研究领域中最关键的问题．文章给出了一个新的频繁项目集发现算法，该算法的特别之处在于事先利用有向图进行的一次数据预处理，在预处理过程中将数据库预先存贮为每个结点都有一个域来记录其支持度的项目集邻接网络，从而把复杂的频繁项目集的发现问题转化为简单的图中搜索问题，这就大大提高了频繁项目集发现过程的效率．同时为了有效地解决预处理过程中的项目集支持度计算问题，采用了一种纵向的数据库表示格式．最后对所采用的算法给出实验结果．关键词：数据挖掘；关联规则；邻接网络；频繁项目集中图分类号：TP311 文献标识码：A 文章编号：1007—9807(2006)03—0054—08 0 引言进了备选集 CK的产生过程．Savasere等在 1995年提出了一种把数据库分割处理的算法_4J，降低了数据挖掘(datamining)，也称为数据库中的知挖掘过程中I／O操作的次数．以后更进一步地研识发现 KDD(knowledgediscoveryindatabase)，是从究涉及分布和并行环境下挖掘关联规则，例如，大量原始数据中挖掘出隐含的、有用的、尚未发现 Cheung等提出了一种关联规则的快速分布式挖的信息和知识．关联规则(associationrules)是数据掘算法(FDM)．目前所研究出的算法从性质上来挖掘中的一个非常重要的研究内容．关联规则是看大都是迭代性的，需要对数据库进行多次遍历，表示数据库中一组对象之间某种关联关系的规显然算法的开销会很大．一些采用了抽样技术的则．关联规则挖掘的对象是交易 (Transactiona1)数算法对数据的非均匀分布非常敏感，这也会对算据库．例如，关联规则可以表示 “购买了商品A和法的性能产生非常巨大的影响．另外，大部分算法 B的顾客中有80％的人又购买了商品C和D”．关都采用了复杂的内部数据结构．联规则提供的信息可以用作商品目录设计、商场针对目前频繁项目集发现算法中存在的迭代货架的布置、生产安排、具有针对性的市场营次数多、数据结构复杂等问题，本文给出了一个新销等．的算法．算法以图论为基础，将交易数据预先存贮从大规模数据库中发现出所有频繁的关联规在一个有向图——项目集邻接网络中，其中不仅则的任务是一项非常困难并且具有挑战性的任可以通过有向边表示项目集间的次序关系，而且务，而其中频繁项目集的发现更是一个瓶颈问题．为了提高搜索效率还存贮了项目集结点的支持围绕这个问题，Agrawal等在 1994年提出 Apriori 度．这就使得数据库中频繁项目集的发现问题转算法l，基本的方法是重复扫描数据库，在第化为邻接网络中的搜索问题．以往对项目集支持次扫描产生长度为的频繁项目集．Park等人提度的计算采用的都是遍历整个数据库，并累计其出的DHP算法，使用哈希 (Hashing)技术有效地改支持交易