独立于应用数据库聚类技术研究.pdf

独立于应用的数据库聚类技术研究 摘 要 大型公司拥有多个子公司,每个子公司一般分布在不同的地区,大型公司 一般使用多数据库系统管理业务。多数据库系统的知识发现对于大型公司的管 理者是一种迫切的需求。简单地将子公司数据发送到总公司,进行集中挖掘, 弊端很多,因此开发一种多数据库挖掘系统是数据挖掘的一个新的挑战。面向 应用的数据库选择合并挖掘方法效率低下且容易造成信息丢失;分布式挖掘方 法不产生中间规则且平行挖掘算法部署困难。独立于应用的多数据库最优分组 挖掘方法针对数据挖掘过程的三个阶段,重新设计了多数据库挖掘的过程:在 数据准备阶段加入多数据库最优分组过程;然后单独挖掘每一个数据库,产生 本地规则集;在知识表示评价阶段进行模式分析和模式合成工作:模式分析产 生高票规则、例外规则和建议规则;模式合成不仅产生全局规则,还产生支持 度置信度高于全局规则的分组规则。三个阶段的过程完整彻底地完成了多数据 库挖掘任务。 本文的研究工作主要包括以下三个方面: (1) 总结了多数据库挖掘技术研究的基本情况。包括多数据库挖掘问题的 重要性、基本结构和特点;现有的两种多数据库挖掘技术的基本内涵和弊端; 数据库间相似度计算方法和多

文档评论(0)

1亿VIP精品文档

相关文档