- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
摘 要
数据挖掘是从数据中析取、识别和发现潜在正确和有用、前所未知的、
最终可理解的知识的过程。它是当今人工智能和数据库研究方面最富活力的
领域之一。关联规则挖掘则是数据挖掘的一个重要研究内容,而频繁项目集
挖掘又是关联规则挖掘的核心问题。
在实际问题中,频繁项目集存在着较多的冗余信息,因此诸多学者采用
各种方法试图减少频繁模式中的冗余。目前,主要采用的有频繁闭项目集
(FCI)和最大频繁项目集(呱I)两种,它们包含所有频繁项目集的信息,
但数量要比频繁项目集的数量小几个数量级。
本文首先对频繁闭项目集和最大频繁项目集挖掘中一些经典的算法进
行了系统的分析和总结,然后在此基础上提出了新的解决相应问题的挖掘算
法:
首先,提出了频繁闭项目集挖掘算法Max-FCIA,该算法利用哈希表映射
事务数据库,通过对哈希表进行操作从而得到所有频繁项目集的支持度,进
而生成包含所有频繁项目的有序树。经过剪枝处理的有序树就是包含所有最
小频繁闭项目集的FC—tree,最后用最小频繁闭项目集生成频繁闭项目集。实
验结果表明,该算法通过映射事务数据库,减少了扫描数据库所浪费的时间,
提高程序执行效率。另外,运用有效的剪枝策略,避免了不必要候选项目集
的生成,节省了存储空间,实验证明该算法是有效的。
其次,提出了最大频繁项目集挖掘算法FP-MFIA,该算法利用频繁模式
树对最大频繁项目集进行检索,通过位图建树的方法有效的减少了扫描数据
库的次数。除此以外,此算法运用独特的最大频繁项目集搜索策略,同时运
用投影技术进行超集检测,提高了遍历的效率,实验证明FP-MFIA算法是比
较有效的最大频繁项目集搜索算法。
另外,本文给出了频繁闭项目集和最大频繁项目集挖掘算法的一些新
的、有效的改进措施:
明显减少了事务数据库的扫描次数。而且,FC-tree是一棵有序树,在项目
集的搜索方面,根据项目集的有序性,采用了二分法查找的方法,可以大大
节省系统在项目集搜索方面的时间。
第二,提出了一种判断最大频繁项目集的新方法,大大地提高了频繁项
目集发现算法的时间效率。
关键字 频繁项目集,频繁闭项目集,最小频繁闭项目集,最大频繁项目集,
频繁模式树
l
Abstract
i the of and
Data s process
mining
unknown,and
di valid,useful,preyiOUSlY
scoveringpotentially
isoneofthemost
understandableknowledge.DataMining
ultimatelY
inthefieldsofartificial
actireresearehfieIds,especial
rule is
reaseareh.TheasSOCiationmining
anddatabase
intellegince
thedi ofthe
ofdata scoveryfrequent
amainresearch mining.And
aspect
oftheasSOCiationrule
itemsetsisfl keyproblem mining
原创力文档


文档评论(0)