- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
中文摘要
数据挖掘是研究从大量数据中发现有用知识的理论与方法,它是目前国际上
数据库和信息决策领域的最前沿研究方向之一.关联规则是数据挖掘中一个较早
的、有意义的研究课题之一.在关联规则的挖掘过程中,频繁模式挖掘是整个挖
掘过程的核心,如何有效的挖掘频繁模式一直以来就是研究人员关注的热点.然
而在实际应用中,由于挖掘出来的频繁模式数量巨大,从而阻碍了频繁模式的应
用.因此,如何对频繁模式进行压缩成为了研究的一个重要方向.
本文首先介绍了关联规则和频繁模式的相关概念及基本挖掘技术,随后详细
介绍了频繁模式压缩技术,并简要分析与比较了几种有效的频繁模式压缩方法.最
后,本文提出了三个基于Top.K思想的频繁模式压缩算法.
Apriori算法的基本思想,但是在挖掘过程中使用了边界支持度来取代最小支持度,
从而实现了对候选项集进行筛选.然而由于该算法依然采用了迭代思想,因此与
其它Top-K频繁模式挖掘算法相比效率并不高.
(2)提出了一个基于混合搜索策略的改进算法MsTFP.该算法是ATFP算法与
Top.KFP.gromh算法的结合.算法使用广度优先搜索策略来进行初始项目的挖掘,
随后使用深度优先策略进一步对长项集进行挖掘.
(3)最后提出了一个基于水平格式的Top.K频繁闭模式挖掘算法TFCP.该算
法主要采用类似垂直挖掘的思想来进行频繁闭模式的挖掘,同时使用TFP算法中
的限制条件对结果集进行了优化.
本文对所提出的算法进行了广泛的性能测试.在UCI机器学习库中的19个数
据集以及lBM数据生成器上生成的2个数据集上的实验结果表明,与Top.K
FP.gro、玑h算法相比,本文所提出的ATFP算法的挖掘效率要略逊一筹.但是改进
算法MSTFP在与Top.KFP.gr0晰h以及ExMiner算法的比较中,在挖掘速度上的
优势非常明显.本文还将TFCP算法与TFP以及CLOSET+算法进行了比较分析,
实验结果表明本文所提出的TFCP算法在进行长模式的挖掘时更有效率.这些研究
成果为频繁模式在实际问题中的应用提供了一种有效的途径.
关键词:关联规则;频繁模式;模式压缩;Top—K;频繁闭模式
分类号:TPl8l
ABSTRACT
DataM isthe methodon howtomine
ining theo拶and researching f而mdata
knowledge
inVery databasesinnontriviaI isoneofthemost
Ia唱e methods,which cutting.edge
researchesinthe
databaseand areaofthe
world.Associationruleisan
decision.making
ofdata Inthe of
early;significanttopic association
mining. processmining mles,
isthemost to
仔equentpattemmining important mine
part.How the仔equentpattems
hasbeenthefbcusof
e衔cientIy ofthe
attention.However,inpractice
文档评论(0)