- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
石油、天然气工业
维普资讯
第 10卷 第 3期 重庆科技学院学报 自然科学版 2008年6月 基于模型的聚类方法研究 宋 浩 远 伊犁师范学院,新疆 伊宁 835000 摘 要 :分析基于模型的聚类方法及其典型算法;重点研究基于混合模型聚类算法的局限性及存在的问题。 关键词 :混合模型;聚类算法; EM算法 中图法分类号:TP301 文献标识码 :A 文章编号 :1673—1980 2008 03—0071-03 聚类分析是数据挖掘的核心技术。近几年来, 集,其中统计量概述了结点所存储的数据。
基于模型的聚类方法应用广泛。在聚类分析方法 如果结点是非叶结点 ,还包含以下信息: 1 划
中,基于模型的方法由于其考虑到 “噪声”或异常数 分数据点集的分裂值; 2 划分数据点集的分裂值所
据,可以自动确定聚类个数而产生鲁棒的聚类方法, 涉及的维数 。
成为聚类领域研究的一个热点。 Mrkd--tree是通过 自上向下递归划分数据集 的过程构造而成的,其构造过程描述如下:
1 基于模型的聚类方法 1 确定数据点集的有界超矩形 hyper—rec— 基于模型的聚类方法 Model—basedCluste— tangle 。
ringMethods ,其基本思想是:为每个聚类假设一 2 查明有界超矩形 hyper—rectangle 的最大
个模型,再去发现符合模型的数据对象,试图将给定 维数。
数据与某个数学模型达成最佳拟合。一个基于模型 3 如果有界超矩形 hyper—rectangle 的最大
的方法可能通过构建反映数据点空间分布的密度函 维数大于某一阈值 ,那么就断定该结点为叶结点
数来定位聚类,也可能基于标准的统计数字 自动决 并记录其所包含的数据点集,返回步骤 4;否则,在
定聚类的数 目,考虑 “噪声”数据和孤立点,从而产生 最大维数中心的任一边划分数据点集,称该中心为
健壮的聚类方法。这种聚类方法总是试图优化给定 分裂值 ,并连同分裂维数一起被存入结点。
的数据和某些数学模型之问的适应性。其典型算法 4 如果结点是叶结点,停止;否则 ,在其子结点
包括以下4种 : 上重复该过程 。
2.1 Mrkd—trees算法 2.2 粒子筛选 EM ExpectationMaximization 算法处理速度 粒子筛选 ParticleFilters 是一种把蒙特卡罗
较慢,其主要原因在于每次迭代都扫描整个数据 方法应用于动态状态 一 空问系统的序列方法 3【]。
集口]。Moore提出一种新方法,利用称之为mrkd— 粒子过滤器用N个加权粒子来评估一些兴趣量 通
tree的结构减少存取数据的次数Eel。缩写词 mrkd 常是一些未知参数的后验分布 。如果在 t时刻的
表示 “multiple—resolution足一dimension”,其中k 模型的状态一空间被表示为 s,那么粒子 i就是一
是数据的维数。 个特殊状态即s。的展现。每个粒子被赋予一个权 Mrkd—tree结构描述为:mrkd—tree是一棵 值即 。因此,一个粒子过滤器可以看作粒子和
由包含一定数量信息的结点构成的二叉树。树中的 权值之集即 ’, 。粒子筛选算法基本思
结点分为叶结点或非叶结点。树中的每个结点存储 想:每个新的观测值意味着下一次迭代的开始。新
以下信息: 1 超矩形 hyper--rectangle 的边界,其 的观测值z被放在每个粒子即 所期望的
中超矩形囊括了结点所存储的所有对象; 2 统计量 聚类中,从而创建新的粒子。对每个已存在的粒子
收稿 日期:2007—09—18
作者简介:宋浩远 1978一 ,男,山东临沂人,讲师,硕士,研究方向为数据挖掘。 · 71 · 维普资讯 宋浩远 :基于模型的聚类方法研究
即 ,可能有尼’+1个分配 粒子能够加入到尼’ 代替其分布,对聚类各簇分布成不同曲线的可用主
个聚类中的一个,或者一个单独新簇中 ,进而创建 曲线方法聚类。 ,+1个新粒子。被赋予每个新粒子的权值应当 为了使混合模型聚类算法有更强的适应性,还
反映迄今为止所观测到的数据的相似性,且该权值 可采用 一 分布、泊松分布与正态分布混合的分布
起于粒子所表示的特殊模型。 建立模型聚类。针对用户网页浏览模式可用一阶马
2.3 SOON算法 尔柯夫链建立混合模型聚类用户访问模式,用混合 SOON SelfOrganizingOscillatorNetworks 模型聚类类型复杂Web数据的研究不多见,这方面
方法利用神经网络把对象集组织成尼个稳定而被结 的工作还需进一步研究。
构化的簇Ⅲ。尼值以无监督的方式确定。SOON方 3.2 高维数据
法基本思想
文档评论(0)