基于模型的聚类方法研究.pdfVIP

下载本文档

1051
0
约5.61千字
约 3页
2018-03-23 发布于未知
举报
版权申诉

基于模型的聚类方法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

石油、天然气工业

维普资讯第 10卷第 3期重庆科技学院学报自然科学版 2008年6月基于模型的聚类方法研究宋浩远伊犁师范学院，新疆伊宁 835000 摘要：分析基于模型的聚类方法及其典型算法；重点研究基于混合模型聚类算法的局限性及存在的问题。关键词：混合模型；聚类算法； EM算法中图法分类号：TP301 文献标识码：A 文章编号：1673—1980 2008 03—0071-03 聚类分析是数据挖掘的核心技术。近几年来，集，其中统计量概述了结点所存储的数据。基于模型的聚类方法应用广泛。在聚类分析方法如果结点是非叶结点，还包含以下信息： 1 划中，基于模型的方法由于其考虑到 “噪声”或异常数分数据点集的分裂值； 2 划分数据点集的分裂值所据，可以自动确定聚类个数而产生鲁棒的聚类方法，涉及的维数。成为聚类领域研究的一个热点。 Mrkd--tree是通过自上向下递归划分数据集的过程构造而成的，其构造过程描述如下： 1 基于模型的聚类方法 1 确定数据点集的有界超矩形 hyper—rec— 基于模型的聚类方法 Model—basedCluste— tangle 。 ringMethods ，其基本思想是：为每个聚类假设一 2 查明有界超矩形 hyper—rectangle 的最大个模型，再去发现符合模型的数据对象，试图将给定维数。数据与某个数学模型达成最佳拟合。一个基于模型 3 如果有界超矩形 hyper—rectangle 的最大的方法可能通过构建反映数据点空间分布的密度函维数大于某一阈值，那么就断定该结点为叶结点数来定位聚类，也可能基于标准的统计数字自动决并记录其所包含的数据点集，返回步骤 4；否则，在定聚类的数目，考虑 “噪声”数据和孤立点，从而产生最大维数中心的任一边划分数据点集，称该中心为健壮的聚类方法。这种聚类方法总是试图优化给定分裂值，并连同分裂维数一起被存入结点。的数据和某些数学模型之问的适应性。其典型算法 4 如果结点是叶结点，停止；否则，在其子结点包括以下4种：上重复该过程。 2．1 Mrkd—trees算法 2．2 粒子筛选 EM ExpectationMaximization 算法处理速度粒子筛选 ParticleFilters 是一种把蒙特卡罗较慢，其主要原因在于每次迭代都扫描整个数据方法应用于动态状态一空问系统的序列方法 3【]。集口]。Moore提出一种新方法，利用称之为mrkd— 粒子过滤器用N个加权粒子来评估一些兴趣量通 tree的结构减少存取数据的次数Eel。缩写词 mrkd 常是一些未知参数的后验分布。如果在 t时刻的表示 “multiple—resolution足一dimension”，其中k 模型的状态一空间被表示为 s，那么粒子 i就是一是数据的维数。个特殊状态即s。的展现。每个粒子被赋予一个权 Mrkd—tree结构描述为：mrkd—tree是一棵值即。因此，一个粒子过滤器可以看作粒子和由包含一定数量信息的结点构成的二叉树。树中的权值之集即 ’，。粒子筛选算法基本思结点分为叶结点或非叶结点。树中的每个结点存储想：每个新的观测值意味着下一次迭代的开始。新以下信息： 1 超矩形 hyper--rectangle 的边界，其的观测值z被放在每个粒子即所期望的中超矩形囊括了结点所存储的所有对象； 2 统计量聚类中，从而创建新的粒子。对每个已存在的粒子收稿日期：2007—09—18 作者简介：宋浩远 1978一，男，山东临沂人，讲师，硕士，研究方向为数据挖掘。 · 71 · 维普资讯宋浩远：基于模型的聚类方法研究即，可能有尼’+1个分配粒子能够加入到尼’ 代替其分布，对聚类各簇分布成不同曲线的可用主个聚类中的一个，或者一个单独新簇中，进而创建曲线方法聚类。，+1个新粒子。被赋予每个新粒子的权值应当为了使混合模型聚类算法有更强的适应性，还反映迄今为止所观测到的数据的相似性，且该权值可采用一分布、泊松分布与正态分布混合的分布起于粒子所表示的特殊模型。建立模型聚类。针对用户网页浏览模式可用一阶马 2．3 SOON算法尔柯夫链建立混合模型聚类用户访问模式，用混合 SOON SelfOrganizingOscillatorNetworks 模型聚类类型复杂Web数据的研究不多见，这方面方法利用神经网络把对象集组织成尼个稳定而被结的工作还需进一步研究。构化的簇Ⅲ。尼值以无监督的方式确定。SOON方 3．2 高维数据法基本思想