基于分布式系统下的改进矩阵算法应用研究.pdfVIP

  • 3
  • 0
  • 约1.25万字
  • 约 4页
  • 2018-05-09 发布于福建
  • 举报

基于分布式系统下的改进矩阵算法应用研究.pdf

基于分布式系统下的改进矩阵算法应用研究 ★ 郑金彬 (龙岩学院数学与计算机科学学院.龙岩 364012) 摘 要 :在分布式数据库 中,采用集 中的数据挖掘技术来发现有用的模式并不总是可行 的.因为从 不 同的站 点来合并数据集会导致庞大的数据通信量 。为此 .提 出一种基于分布式系统下的 改进矩阵算法。实验结果表明,该算法既可计算局部的支持计数 ,又可减少扫描分区数据库 的时间。 关键词 :分布式系统 ;关联规则 ;Apriori算法 ;矩 阵算法 0 引 言 I={i,i,…,i}是项集 ,其 中ik(k=1,2,…,n1)可 以是购物 篮中的物品.也可以是保险公司的顾客。设任务相关的 众所周知 .Ar,riori算法是大多数现有的并行和分 数据 D是事务集,其中每个事务T是项集 .使得 T I。 布式算法的核心.直接编写一种Apriori算法不能显著 设A是一个项集.且A T 提高频繁项 目集的生成。在分布式数据挖掘中.信息传 关联规则是如下形式的逻辑蕴 涵 :A B,ACI。 递是同步的.因此能否实现信息的同步传递就成为通 BcI.且AnB= 关联规则具有如下两个重要的属 信优化的目标.而对于分布式数据库来说 .数据如何分 性 : 解是非常重要的l1『。因此.具有较好性能的分布式数据 (1)支持度 (Suppo~):P(AUB),即A和 B这两个 挖掘所主要面临的挑战之一是如何找到一种较为优越 项集在事务集D中同时出现的概率 的数据分解策略.以实现各节点的负载平衡 ,并尽量减 (2)可信度 (置信度)(Confidence):P(BIA),即在出 少数据通信量 现项集A的事务集 D中.项集B也同时出现的概率嘲。 分布式算法 的主要思想是根据分布在各个领域的 1.2 基于分布式系统的关联规则挖掘 数据集 以形成一定的挖掘规则。与其将不同领域的数 设有一个分布式数据库系统 S,由 11个站点 S;(j_1. 据集合并在一个集中领域.不如生成统一的关联规则 . … n)组成 。DB=DB1UDB2U…uDB,则 DB称为全局 所以这种算法必须尽可能减少数据通信量 关联规则 , 数据库,DB;称为局部数据库。 挖掘过程 主要包含两个阶段 :第一阶段必须先从资料 定义 1设 X.sup和 X.supi分别表示 X在 DB和 集合中找出所有的高频项 目组 (FrequentItemsets),第二 DBi上的支持数。如果 X

文档评论(0)

1亿VIP精品文档

相关文档