网站大量收购闲置独家精品文档,联系QQ:2885784924

基于贝叶斯络的分布数据挖掘模型DDMB研究.doc

基于贝叶斯络的分布数据挖掘模型DDMB研究.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于贝叶斯络的分布数据挖掘模型DDMB研究

基于贝叶斯网络的分布数据挖掘模型DDMB研究 琚春华 张捷 (浙江工商大学 计算机与信息工程学院 杭州 310012) 摘 要:本文针对分布环境的数据挖掘要求,提出了基于贝叶斯网络的分布数据挖掘模型DDMB。论文详细阐述了DDMB中属性多叉树的概念和通过属性多叉树来反映分布环境各数据集属性总体特征的思想,介绍了基于移动Agent访问分布数据集来构建属性多叉树的方法,详细描述了由属性多叉树生成综合贝叶斯网络的算法,阐述了面向属性多叉树的贝叶斯网络结构学习和参数学习,以及属性间依赖系数最小阈值的确定方法。实验结果表明,该模型有效地解决原有分布环境贝叶斯网络学习负担重、存储开销大、执行效率低等问题。 关键字:分布环境 贝叶斯网络 属性多叉树 移动Agent Distributed Data Mining Model Based on Bayesian Network Ju Chunhua Zhang Jie (Zhejiang Gongshang University, Hangzhou 310012) Abstract: The paper presents a distributed data-mining model based on Bayesian DDMB, it proposes the concept of multi-branches tree of attribute and the opinion that using multi-branches tree of attribute to reflect the characteristic of attribute in the distributed dataset. It also introduced the way of building multi-branches tree of attribute based on Agents to distributed datasets, then explains the algorithm of Bayesian network for multi-branches tree of attribute, including structure learning and parameters learning. Finally, the paper presents a prototype system P-DDMB of distributed Bayesian network on the basis of Bee-gent. The experimental results showed the DDMB providing high capability and efficiency of distributed business data mining Key words: distributed data mining, Bayesian network, multi-branches tree of attribute, agent 1 引言 随着企业网络化信息系统的应用和发展,形成了面向连锁经营的分布式数据库和海量型数据源。通过对这类数据源的挖掘,可获得隐含、潜在和有价值的决策信息[2],发现企业经营的运行规律。目前,已有众多的数据挖掘算法,如关联规则挖掘、聚类、决策树等,用于商品关联度分析、客户分类、销售预测等[1]。特别是贝叶斯网络,由于其优良的性能,常被应用在各领域的数据预测、分类、推理等功能中。 贝叶斯网络不仅能够充分利用领域知识和样本数据信息,将先验知识和样本信息巧妙地结合在一起,还能描述变量间的因果关系,具有语意清晰、可理解性强的特点,且还能利用概率测度来处理不完整数据。然而,贝叶斯网络算法是面向集中式数据处理,要求所被挖掘的数据须存放于单一和集中的数据库中。即便在数据分布存储的情况下,也要求把这些数据重新汇集,然后再从汇总的数据集中训练出贝叶斯网络[3][4][6]。这种处理方法不仅会大量占用存储空间,增加网络负担,而且使响应时间变长,破坏数据的私有性和安全性。针对这些问题,本文提出了基于贝叶斯网络的分布数据挖掘模型。 2 贝叶斯网络与分布数据处理 贝叶斯网络作为不确定性问题模拟和推理的一种有效工具,具有适应信息变化的能力,以及综合专家先验知识和实例数据的分布特征,其基本思想是: 给定数据样本D,样本属性A={A1、A2…Ai、X},其中X为类标号属性,X的可能取值{x1、x2… xi},通过对数据样本D的学习,确定属性A1、A2…Ai、X的贝叶斯网络B=G,Θ。B=G, Θ由两部分组成: ① 网络结构图G: 一个有向无环图,图中各节点对应随机变量A1,…

文档评论(0)

1444168621 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档