- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于邻接网络的频繁项目集发现算法①-管理科学学报-天津大学.PDF
维普资讯
第 9卷第 3期 管 理 科 学 学 报 V01.9No.3
2006年 6月 JOURNALOFMANAGEMENTSCIENCESIN CHINA Jun.2006
基于邻接网络的频繁项 目集发现算法①
陈富赞,李敏强
(天津大学管理学院,天津 300072)
摘要:频繁项 目集发现一直都是关联规则研究领域中最关键的问题.文章给出了一个新的频
繁项 目集发现算法,该算法的特别之处在于事先利用有向图进行的一次数据预处理,在预处理
过程 中将数据库预先存贮为每个结点都有一个域来记录其支持度的项 目集邻接网络,从而把
复杂的频繁项 目集的发现问题转化为简单的图中搜索问题,这就大大提高了频繁项 目集发现
过程的效率 .同时为了有效地解决预处理过程 中的项 目集支持度计算问题,采用了一种纵 向的
数据库表示格式.最后对所采用的算法给出实验结果.
关键词 :数据挖掘 ;关联规则;邻接 网络 ;频繁项 目集
中图分类号 :TP311 文献标识码 :A 文章编号 :1007—9807(2006)03—0054—08
0 引 言 进了备选集 CK的产生过程 .Savasere等在 1995年
提出了一种把数据库分割处理的算法_4J,降低了
数据挖掘(datamining),也称为数据库 中的知 挖掘过程中I/O操作的次数 .以后更进一步地研
识发现 KDD(knowledgediscoveryindatabase),是从 究涉及分布和并行环境下挖掘关联规则 ,例如 ,
大量原始数据中挖掘出隐含的、有用的、尚未发现 Cheung等提出了一种关联规则的快速分布式挖
的信息和知识.关联规则(associationrules)是数据 掘算法(FDM).目前所研究出的算法从性质上来
挖掘中的一个非常重要的研究内容.关联规则是 看大都是迭代性的,需要对数据库进行多次遍历,
表示数据库 中一组对象之间某种关联关系的规 显然算法的开销会很大.一些采用了抽样技术的
则 .关联规则挖掘的对象是交易 (Transactiona1)数 算法对数据的非均匀分布非常敏感,这也会对算
据库 .例如,关联规则可以表示 “购买了商品A和 法的性能产生非常巨大的影响.另外,大部分算法
B的顾客中有80%的人又购买了商品C和D”.关 都采用了复杂的内部数据结构.
联规则提供的信息可以用作商品目录设计、商场 针对 目前频繁项 目集发现算法中存在的迭代
货架的布置、生 产安排、具有 针对性 的市场营 次数多、数据结构复杂等问题,本文给出了一个新
销等 . 的算法 .算法 以图论为基础 ,将交易数据预先存贮
从大规模数据库 中发现出所有频繁的关联规 在一个有 向图——项 目集邻接网络 中,其 中不仅
则的任务是一项非常困难并且具有挑战性的任 可以通过有 向边表示项 目集间的次序关系,而且
务,而其中频繁项 目集的发现更是一个瓶颈问题 . 为了提高搜索效率还存贮了项 目集结点 的支持
围绕这个 问题,Agrawal等在 1994年提出 Apriori 度.这就使得数据库中频繁项 目集的发现问题转
算法l,基本的方法是重复扫描数据库,在第 化为邻接网络 中的搜索问题 .以往对项 目集支持
次扫描产生长度为 的频繁项 目集 .Park等人提 度的计算采用的都是遍历整个数据库,并累计其
出的DHP算法,使用哈希 (Hashing)技术有效地改 支持交易
您可能关注的文档
- 城地价动态监测应用研究.PPT
- 城桥梁养护技术规程.DOC
- 城轨道交通设施养护维修技术规范-北京质量技术监督局.PDF
- 培养学生认真分析问题的能力集装箱定义是指采用海陆空不同运输.PPT
- 基于10kV配电网PT频繁故障的仿真与改进措施研究.PDF
- 基于ADAMS柔性体压铸机柱架的合模力仿真计算.PDF
- 基于API频繁模式挖掘算法的恶意应用检测方法-重庆文理学院学报.PDF
- 基于DEM的火山口地貌识别方法探讨-地理研究.PDF
- 基于MapReduce的频繁项集并行挖掘算法-计算机应用与软件.PDF
- 基于NDVI的中国天然森林植被净第一性生产力模型-全球变化与陆地.PDF
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
原创力文档


文档评论(0)