- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
动态数据库中频繁模式的增减量维护
年 级:2003 级 研究生:张继连
专 业:计算机软件与理论 方 向:数据库与数据挖掘
摘 要
在过去的二十多年里,随着数据库技术的迅速发展以及数据库管理系统的广
泛应用,人们收集数据的能力有了巨大的提高,积累的数据越来越多。海量的数
据背后隐藏着许多重要的、有趣的信息,人们希望能够对其进行更高层次的分析,
以便发现有用的知识,从而更好地利用这些数据,为管理者提供强有力的决策支
持。传统的数据统计分析方法已经不能够满足目前的需要,于是数据挖掘技术便
应运而生了。
数据挖掘(Data Mining ),也称为数据库中的知识发现,是指从大量的、不
完全的、有噪声的、模糊的数据中抽取出潜在的、有效的、新颖的、有用的和最
终可以理解和运用的知识的过程。它是涉及数据库、计算理论、人工智能、统计
理论、认知科学等众多学科的一门交叉学科,能够对数据进行关联分析、分类、
聚类、预测、孤立点分析、演变分析。尽管数据挖掘技术诞生不久,但它广泛的
应用前景和巨大的魅力,吸引了众多学者极大的研究热情和产业界人士的广泛关
注。
关联分析是数据挖掘中最重要的研究领域之一。Agrawal 等于 1993 年首先
提出了挖掘顾客交易数据库中项集间的关联规则问题[12]。以后众多的研究人员
对关联规则的挖掘问题进行了大量的研究[13,14,15,17,19],他们的工作包括对原
有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的
效率,对关联规则的应用进行推广。一般而言,从数据库中发现频繁模式是关
联分析的核心任务,因为从频繁模式生成关联规则只是一个简单的计算问题。
运动是自然界永恒的真理。我们所获得的数据也是在动态地改变着。相应的,
我们运用数据挖掘技术从数据中获得的知识也要随着数据的改变而改变,以反
映出新的趋势。增量算法能够通过处理新增加的数据来满足对原有知识的更新、
加强的需要,这种方法避免了对整个数据集重新进行挖掘。1989 年,Paul Utgoff
等人提出了决策树的增量更新算法ID5R[8,9],使得著名的决策树算法ID3[43]能
够根据动态增加的实例对整个树的结构进行调整。关联规则的增量挖掘算法
FUP 和FUP [5,21]是由David W. Cheung 等人于1996,1997 年提出的。它们采
2
用类似于Apriori[12]算法的“产生-验证”候选集的方法,对新增加的数据集进
行多遍扫描并结合原有的频繁项集,最后生成更新后的频繁项集。基于滑动窗
口的增量式关联规则算法SWF[6]使用了新颖的方法:在候选2 项集的基础上一
次性生成所有的候选K (K2 )项集,然后再验证这些候选集,使得扫描数据库
的次数减少到两次。类似的,增量算法的思想也被研究者运用到其它方面,产
生了增量聚类算法[3,4]等。
现有的增量式算法FUP,SWF 在一定程度上解决了模式的增量更新问题,
但是对于减量问题(即一部分数据从数据集中删除后,原数据集中的模式的更
新问题)则没有进行专门的研究和论述。众所周知,现代数据库的动态更新不
仅包括数据的增加,也包括数据的删除和更改(可以看作“先删除-后增加”的
一种特殊情况),因此,模式的减量更新维护也是一个值得研究的问题。然而,
现有的增量式算法都存在一定的局限性,例如,FUP 要对数据库进行多遍扫描;
SWF 的“一次生成所有候选”的策略对于用IBM Quest project 数据生成器生成
的模拟交易数据集存在着过度拟合现象,而在真实数据集上的效率则要低得多。
另一方面,动态数据库的增减量挖掘也会涉及到一个重要的问题:什么时
候该对数据库进行增减量挖掘?David W.Cheung 等人于 1998 年提出了
DELI[42]算法,该算法利用集合对称差原理定义了一个可信度因子(certainty
factor )来确定什么时候该对数据库进行更新。然而该算法会对数据库进行多遍
扫描,降低了效率。同时,为了计算可信度因子,DELI 使用了抽样技术,从而
不可避免的产生False Negative 和False Positive 的问题。
基于以上讨论,本文主要的研究工作如下:
用模态逻辑对关联规则分析中的概念进行了规范化的
您可能关注的文档
最近下载
- (新教科版)科学四年级上册全册教案及教学设计.pdf VIP
- 部编版八年级语文上册《短文二篇》PPT优秀课件.pptx VIP
- ZF_Intarder3_缓速器培训课件安喜光.pptx VIP
- 加氢搅拌器形式、原理及其发展趋势.pdf VIP
- 第一单元第2课《缤纷的世界美术流派》课件+教案-2025-2026学年人美版(2024)初中美术八年级上册.pptx VIP
- 初三冲刺班会动员课件PPT.pptx VIP
- 《一着惊海天》教学设计.docx VIP
- 电子信息工程专业未来就业岗位及发展前景分析报告.docx VIP
- 数字媒体艺术创意设计课件.pptx VIP
- 医院信息科笔试题库及答案.docx VIP
文档评论(0)