动态数据库中频繁模式的增减量维护.pdfVIP

下载本文档

0
0
约10.09万字
约 64页
2017-08-23 发布于安徽
举报
版权申诉

动态数据库中频繁模式的增减量维护.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

动态数据库中频繁模式的增减量维护年级：2003 级研究生:张继连专业：计算机软件与理论方向:数据库与数据挖掘摘要在过去的二十多年里，随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们收集数据的能力有了巨大的提高，积累的数据越来越多。海量的数据背后隐藏着许多重要的、有趣的信息，人们希望能够对其进行更高层次的分析，以便发现有用的知识，从而更好地利用这些数据，为管理者提供强有力的决策支持。传统的数据统计分析方法已经不能够满足目前的需要，于是数据挖掘技术便应运而生了。数据挖掘（Data Mining ），也称为数据库中的知识发现，是指从大量的、不完全的、有噪声的、模糊的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程。它是涉及数据库、计算理论、人工智能、统计理论、认知科学等众多学科的一门交叉学科，能够对数据进行关联分析、分类、聚类、预测、孤立点分析、演变分析。尽管数据挖掘技术诞生不久，但它广泛的应用前景和巨大的魅力，吸引了众多学者极大的研究热情和产业界人士的广泛关注。关联分析是数据挖掘中最重要的研究领域之一。Agrawal 等于 1993 年首先提出了挖掘顾客交易数据库中项集间的关联规则问题[12]。以后众多的研究人员对关联规则的挖掘问题进行了大量的研究[13,14,15,17,19]，他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率，对关联规则的应用进行推广。一般而言，从数据库中发现频繁模式是关联分析的核心任务，因为从频繁模式生成关联规则只是一个简单的计算问题。运动是自然界永恒的真理。我们所获得的数据也是在动态地改变着。相应的，我们运用数据挖掘技术从数据中获得的知识也要随着数据的改变而改变，以反映出新的趋势。增量算法能够通过处理新增加的数据来满足对原有知识的更新、加强的需要，这种方法避免了对整个数据集重新进行挖掘。1989 年，Paul Utgoff 等人提出了决策树的增量更新算法ID5R[8,9],使得著名的决策树算法ID3[43]能够根据动态增加的实例对整个树的结构进行调整。关联规则的增量挖掘算法 FUP 和FUP [5,21]是由David W. Cheung 等人于1996，1997 年提出的。它们采 2 用类似于Apriori[12]算法的“产生-验证”候选集的方法，对新增加的数据集进行多遍扫描并结合原有的频繁项集，最后生成更新后的频繁项集。基于滑动窗口的增量式关联规则算法SWF[6]使用了新颖的方法：在候选2 项集的基础上一次性生成所有的候选K （K2 ）项集，然后再验证这些候选集，使得扫描数据库的次数减少到两次。类似的，增量算法的思想也被研究者运用到其它方面，产生了增量聚类算法[3,4]等。现有的增量式算法FUP，SWF 在一定程度上解决了模式的增量更新问题，但是对于减量问题（即一部分数据从数据集中删除后，原数据集中的模式的更新问题）则没有进行专门的研究和论述。众所周知，现代数据库的动态更新不仅包括数据的增加，也包括数据的删除和更改（可以看作“先删除-后增加”的一种特殊情况），因此，模式的减量更新维护也是一个值得研究的问题。然而，现有的增量式算法都存在一定的局限性，例如，FUP 要对数据库进行多遍扫描； SWF 的“一次生成所有候选”的策略对于用IBM Quest project 数据生成器生成的模拟交易数据集存在着过度拟合现象，而在真实数据集上的效率则要低得多。另一方面，动态数据库的增减量挖掘也会涉及到一个重要的问题：什么时候该对数据库进行增减量挖掘？David W.Cheung 等人于 1998 年提出了 DELI[42]算法，该算法利用集合对称差原理定义了一个可信度因子（certainty factor ）来确定什么时候该对数据库进行更新。然而该算法会对数据库进行多遍扫描，降低了效率。同时，为了计算可信度因子，DELI 使用了抽样技术，从而不可避免的产生False Negative 和False Positive 的问题。基于以上讨论，本文主要的研究工作如下：  用模态逻辑对关联规则分析中的概念进行了规范化的