- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
增量更新关联规则挖掘方法的研究
摘 要
当今社会是一个信息社会,信息瞬息万变。大量信息在给人们带来方便的同时也
带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是
信息安全难以保证;第四是信息形式不一致,难以统一处理。如何才能不被信息淹没,
而是从中发现有用的知识,提高信息利用率?面对这一挑战,数据挖掘技术应运而生。
关联规则是数据挖掘中一个很重要的分支,它能发现事物之间的关系,从而得到数据
内部潜在有价值的信息。随着时间的推移,数据库总是在不断的变化,于是如何高效
地从更新后的数据库中对已经推导出的关联规则进行更新成为人们探究的热点。
已有的成熟的增量更新关联规则挖掘方法大致可以分为两类:一类是基于Apriori
算法都有自身的缺点,前者的缺点是需要多次扫描数据库,很耗时间,后者的缺点是
需要多次生成条件FP树,很耗空间。本文在总结前人算法的优缺点的基础上,给出
了基于图的关联规则增量更新挖掘算法,算法充分考虑了挖掘需要,只需要扫描一次
数据库,并且减少了冗余候选集的生成,在提高空间使用率的同时又提高了挖掘效率。
本文所作的工作有:
首先,对已有的经典算法及其改进算法进行了深入的研究,包括Apriori算法、FP
树算法、FUP算法、DLG算法等,分析了这些算法的优缺点。对一些新颖的算法技术
进行了探讨和学习,如数值型数据集的处理问题、模糊约束概念等。
其次,给出了图的四叉链表存储结构,分析了该结构引入的优点,并且基于该结
构给出了完全频繁项集挖掘算法GIUl和最大频繁项集挖掘算法GIU2,给出了算法描
述和实例演示。
再次,鉴于图的优点,将图的结构拓展到模糊时态的数据集增量更新挖掘应用中,
给出了模糊时态增量更新完全频繁项集的挖掘算法FuzzyGIU,分析了图在模糊时态环
境下使用的合理性和有效性,并对算法进行了描述和实例演示。
最后,对这些算法进行了仿真实验,并与相关的已有算法进行了性能对比。结果
表明了本文给出的基于图存储结构的几个算法在数据集规模和最小支持度各自变化时
的挖掘效率表现都比已有算法好,从而验证了这些算法的有效性。
关键词:关联规则;频繁:顷集;时态约束;模糊理论;图
Abstract
is rapidly.when
informati。nchanging
s。ciety,the
is舭infc.rmati。n
s。ciety
Today,s
is
first
also manyproblems:The
to brings
c01weniencespeopie,it
information
huge brings
isthatitis
to second
difficult
itis digest;the
that
isSOexc;essive
theinf-o衄ation
that
您可能关注的文档
最近下载
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案.docx VIP
- 2025既有建筑消防改造设计指南.docx VIP
- 甘肃省乡镇卫生院名单2021版1549家(中心卫生院453+卫生院1096)1.docx VIP
- 2024年广州白云高新区投资集团有限公司人员招聘笔试备考题库及答案解析.docx VIP
- 全球变化课件01-地球系统与全球变化.ppt VIP
- 注册土木工程师(水利水电工程)预测试题.pdf VIP
- 2023年广州白云产业投资集团有限公司人员招聘考试参考题库及答案解析.docx VIP
- 2025年吉林省中考语文试卷真题(含答案).docx
- 中医康复临床实践指南脑卒中.docx VIP
- 建立公司危化品应急救援队伍的意义与方法.pptx VIP
文档评论(0)