- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精品
增量数据挖掘初探
[摘 要]本文介绍了数据挖掘领域中的增量频繁模式挖掘,在介绍了频繁项集挖掘与增量频繁模式挖掘的一搬概念后,文章又相继介绍了了三种由相关研究人员提出的增量频繁模式挖掘算法,并分析了这些算法的优点与不足,并且在分析的同时发现了IUAMAR算法的严重缺陷,指出它是不可靠的算法.最后,文章根据火锅销售数据挖掘的现实情况,结合其中的两种算法的优点,介绍了销售数据挖掘的实现。
[关键词] 数据挖掘;关联规则;频繁项集;增量挖掘算法
引言
问题的提出
近年来,信息技术的广泛应用提出了对信息处理能力的更高要求,老式的数据统计方法面对海量的数据以及全新的数据处理概念显得力不从心,在这种背景下,数据挖掘技术应运而生,并成为研究的热点.数据挖掘就是从大量的、不完全的、有噪声的、模糊的、原始的数据中提取隐含在其中人们事先不知道也不可能直接获取的,但却非常有潜在价值的信息,它们包括关联规则挖掘、特征规则、分类规则等.其中关联规则挖掘是发现大量数据中项与项之间有趣的关联或联系,它是数据挖掘领域中的一个热闹课题,得到了业界广泛的研究.其中:Apriori算法是最早提出的也是最经典的算法,后来又出现了另一个高效的算法―FP-Growth,它解决了Apriori算法中的一个最大缺陷但它本身的实现却比较困难.之后,广大学者就以上述算法为蓝本进行改进,使之更加有效,更加容易实现,并将其融入到各种数据处理系统中,使之发挥出自己巨大的作用.
但是以上的研究都是以假设数据库为静态的前提的.事实上,在很多领域数据库都处在不断地更新(增加、删除、修改)中,所用的支持度阈值也会不断改变,并且动态数据库往往要求对用户的查寻指令做出快速地反应.因此,提高动态数据库中关联规则发现的效率便成了一个重要的问题.
进行增量数据挖掘最直接的方法就是对更新后的数据库进行一次关联规则挖掘,但这样显然有很大的开销,而且随着时间的增长、数据库规模的不断增长,这样的方法也显得不现实.如何利用原始数据库的挖掘结果来更新频繁项集便成了增量频繁模式挖掘研究的起点.
虽然目前频繁模式的增量挖掘领域研究地还不很充分,但是广大研究人员对它们所做出的改进还是值得肯定的,针对阈值不变的增量频繁模式挖掘研究总体分为两大类:第一种的分别挖掘出原始数据库和更新数据库中的频繁项集,然后使用某种规则对其进行更新,这种算法的特点是可以最大利用现有的关联规则挖掘算法,但是频繁项集的更新规则很重要,规则制定或实现的时候一但发生问题,将对结果的分析产生致命影响.第二种的基于散列的方法,这种方法不需要添加复杂的更新规则,实现起来也非常容易,结果可靠性高,但是它将占用较高的系统资源.
本文将带介绍、分析几种不同类型的算法 ,然后以一销售数据库为例介绍算法的实际应用 .
数据挖掘的基本概念与定义
项(item)是一个文字,在交易数据库中,它可以代表商品;分类时,它可以代表属性的值.设为项的全集,为事务数据库,其中每个事务包含I中的一个子集.
支持度计数:项集的支持度是指,事务数据库中,包含X的事务的个数.
支持度:项集X的支持度计数等于X的支持度计数除以事务数据库中事务的总条数.
给定一个支持度阈值minsup,若X的支持度minsup,则X是频繁的,若X包含有k个项,则称X为频繁k-项集[1].
Apriori性质[1]:若一个项集是频繁的,则它的所有子集也是频繁的;同样,如果一个项集有不频繁的子集,则这个项集就不可能是频繁的.
融合原始、增量数据库频繁模式的算法
前面已经介绍过,基于融合思想的算法需要用基本的数据挖掘算法分别挖掘出原始、增量数据库中的频繁项集,然后对它们进行融合.融合的时候需要以下三大结论的支持:
设K是项集,DB为原始数据库,db为增量数据库,NDB为更新后的数据库.
K在DB中是频繁的,在db中也是频繁的,则K在NDB中是频繁的.
K在DB中是不频繁的,在db中也是不频繁的,则K在NDB中是不频繁的.
K只在DB或db其中之一中频繁,则K在NDB中是否频繁是不确定的[2].
其中DB是原始数据库,db是增量数据库,K是频繁项集,NDB是更新后的数据库.
以上结论很容易根据频繁项集的定义得到证明.
有了上面的理论,很多学者对此思想产生的算法进行了一些研究、改进,比如:只需要挖掘出原始数据库中的频繁项集,而用其它方法处理增量数据库.如:何宏,肖建华,肖伟平提出了IUAMAR算法[3],该算法可以处理对挖掘数据库进行追加的情况,利用挖掘知识库信息即原数据库挖掘出来的高频项目集和最小非高频繁项目集来产生新候选项目集,避免了类似Apriori的算法中候选项目集的数量庞大的问题.下面文章将介绍这个算法,并对它的优缺点进行分析.
算法的相关概念与定义
DB :原始数据库;
db:增量数
您可能关注的文档
- (毕业学术论文设计)-有除草活性的放线菌菌株1-10固体发酵的研究.doc
- (毕业学术论文设计)-有柄盖注塑模具设计.doc
- (毕业学术论文设计)-有毒中药炮制减毒综述.doc
- (毕业学术论文设计)-有关固体分散体的讨论.doc
- (毕业学术论文设计)-有害残留物的快速检测技术研究.doc
- (毕业学术论文设计)-有机电致发光材料的研究进展.doc
- (毕业学术论文设计)-有关风力发电的外文文献翻译--大型风力发电对电力系统稳定性的影响.doc
- (毕业学术论文设计)-有机肥与无机氮肥配施对连作番茄土壤微生物的影响.doc
- (毕业学术论文设计)-有机废水中微生物絮凝剂产生菌的选育》.doc
- (毕业学术论文设计)-有机化学实验绿色化设计的研究》.doc
文档评论(0)