- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于贝叶斯网络及分布数据挖掘模型DDMB研究
基于贝叶斯网络的分布数据挖掘模型研究
(浙江工商大学 计算机与信息工程学院 杭州 310012)
摘 要:本文针对分布环境的,提出了基于贝叶斯网络的分布数据挖掘模型属性多叉树属性多叉树反映分布环境各集属性总体特征移动Agent访问分布数据集来属性多叉树由属性多叉树生成综合贝叶斯网络面向属性多叉树的贝叶斯网络结构学习属性间依赖系数最小阈值。模型有效地解决分布环境贝叶斯网络负担重存储大执行效率低等问题。
关键字:贝叶斯网络 属性多叉树 移动Agent
Ju Chunhua Zhang Jie
(Zhejiang Gongshang University, Hangzhou 310012)
Abstract: The paper presents a distributed data-mining model based on Bayesian DDMB, it proposes the concept of multi-branches tree of attribute and the opinion that using multi-branches tree of attribute to reflect the characteristic of attribute in the distributed dataset. It also introduced the way of building multi-branches tree of attribute based on Agents to distributed datasets, then explains the algorithm of Bayesian network for multi-branches tree of attribute, including structure learning and parameters learning. Finally, the paper presents a prototype system P-DDMB of distributed Bayesian network on the basis of Bee-gent. The experimental results showed the DDMB providing high capability and efficiency of distributed business data mining
Key words: distributed data mining, Bayesian network, multi-branches tree of attribute, agent
引言
随着企业系统的应用和发展,形成了面向连锁经营的分布式数据库和海量型数据源。通过对这类数据源的挖掘,可获得隐含、潜在和有价值的决策信息[2],发现企业经营的运行规律。目前,已有众多的数据挖掘算法,如关联规则挖掘、聚类、决策树等,用于商品关联度、客户分类、销售预测等[1]。特别是贝叶斯网络,由于其优良的性能,常被应用在领域的数据预测、分类、推理等功能中。
贝叶斯网络不仅能够充分利用领域知识和样本数据信息,将先验知识和样本信息巧妙地结合在一起,还能描述变量间的因果关系,具有语意清晰、可理解性强的特点,且还能利用概率测度来处理不完整数据。然而,贝叶斯网络算法是面向集中式数据处理,要求所被挖掘的数据须存放于单一和集中的数据库中。即便在数据分布存储的情况下,也要求把这些数据重新汇集,然后再从汇总的数据集中训练出贝叶斯网络[3][4][6]。这存储空间,增加网络负担,使响应时间变长,破坏数据的私有性和安全性。针对这些问题,本文提出了基于贝叶斯网络的分布数据挖掘模型。
贝叶斯网络与分布数据处理
贝叶斯网络作为不确定性问题模拟和推理的一种有效工具,具有适应信息变化的能力,综合专家先验知识和实例数据的分布特征,其基本思想是:
给定数据样本D,样本属性A={A1、A2…Ai、X},其中X为类标号属性,X的可能取值{x1、x2… xi},通过对数据样本D的学习,确定属性A1、A2…Ai、X的贝叶斯网络B=G,Θ。B=G, Θ由两部分组成:
① 网络结构图G: 一个有向无环图,图中各节点对应随机变量A1,…,An,有向边表示变量间的直接依赖关系。
② 局部概率分布Θ:是每个属性变量Ai的条件概率P(Ai|Val(Parent(Ai))) 所形成的表。其中,Parent(Ai)表示图G中Ai的父节点集。
贝叶斯网络学习的过程即是确定网络结构图G和局部概率分布Θ的过程,其分布数据的高度抽象性海量数据特征综合性确保了贝叶斯网络不仅适用于集中式的挖掘,而且适用于分布环境的挖掘。然而研究大是
文档评论(0)