基于区域最近邻生长的层次聚类算法.pdfVIP

基于区域最近邻生长的层次聚类算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于区域最近邻生长的层次聚类算法.pdf

过程控制 化工自动化政仪表, 2010 , 37(5);9 -12 Conlrol and Instrumfnt l\ in Chemical Industry 基于区域最近邻生长的层次聚类算法 杨栋1 ,詹海亮2 ,苏锦旗2 (1.四京学院,因安 710123;2. 阿拉工业大学,I!!i安 710072) 摘要: 对于非球形和其它特殊形状的非凸数据集的聚集,~忠于划分的聚类算法很难取得理想的聚类结果。 层次聚类算法根据数据的特征将距离近的数据进行合并,对于球形数据集和其它具有特殊形状的数据集有很好 的聚类效果。在分析现有层次聚类算法的基础上,根据层次聚类的合并思想和最近邻距离的计算提出了基于鼠 城最近邻生长的层次聚类算法。 关键询: 聚类算法;层次聚类算法:区域最近邻生长 中固分主题号: TP301 文献标i只码:A 文拿编号: 1α页。幽3932(2010)05α)()9-04 1 冒 l 曹 层次聚费是基于分居思想的聚类算法.他的优 点是可以在不问维度水平上对数掘进行探测,蒋易 实现柑似度盘成距离度量。{.ê.ift饨的居次廉类算法 终止条件含糊,J::l执行合并或分裂的操作后不可修 班,容易导致撰类结果质摄下降。 通常,居次聚类算 法一般与其他方法相结合来解决实际的聚类问题。 目前主要的屈次壤类算法手í BIRCH 算浩、CURE 算 法、ROCK 算法等。 1.1 BIRCH 算法 BIRCH[I)算法利用居次方法进行平衡选代归的 和廉类。它引入了聚类特征( CF) 和聚类特征树 ( CF 树) .用于概括骤类描述,提高了撰类算法对于 大倒数据库的高效性和可扩展性。 i真算出首先将数据对象划分瑞树形结构,然后 采用其他算法对聚类结果求精。蝶乡随特征是一个三 元组,它给出了一个子攘的俏息的汇总描述。假设 某个子鳞中有 n 个 d 雄的点或对象 Xí (i=1.2.... , n) ,则该子旗的廉英特征 CF定义如下: CF = (n ,ω , 88) 式中: n 一一-子簇中点的数曰 ; LS一-n 个点的线 性和 ; SS 一-n个数据点的平方和。 LS 股映簇的质 心位置 ? SS 民映旗的大小,即凝撰樵肢。 CF树是一种商度平衡的树,它存储了层次聚类 的聚类特征。包含两个参数:分支因子 B和阀值 T o 分支因子 B 定义了每个非叶子节点孩子的最大数 目,而阀值参数 T决定了 CF树的规模。 BIRCH 算法一般包括两个阶段: ( 1 )扫描数据 晖,建立一个初始存放于内存的 CF 树,它可以被看 作数据的多摆脱缩,试阁保阁数据内在的聚费结果: (2) 采用任意的黯类算法对 CF 树的叶子节点进行 聚类。当插入新数据对象时 ? CF 树可以动态构造, CF 树的哥哥建类似于 B+ 树构建中的节点插入和分 裂,因此 BIRCH 支持增最廉类。由于 CF 树的每个 节点的大小的限制,可能导嗷节点并不总是对应于 用户所认为的一个自然牒,而且,如果簇不是球形 的, BIRCH 算法不能很好地工作,因为它采用了直 径的概念来控制廉类的边界。 1. 2 CURE 算法 CURE 采用了…种新颖的向底向 t的层次廉类 算法,它把层lX算法和l划分算法结合在一起解决了 偏好球形和相似大小的问题,在处理孤立点上也更 加健壮。诙算法在计算候间的距离时,采用了基于 质心和1基于代表对象之间的中间策略。它不用单个 质心或对象来代表一个簸,而是选择数据宅间中固 定数H的具有代表性的点。它从一个族中选择一定 数目散布很好的点来代表诙簸,这将点用于确定该 簇的形状和大小。然后根据一个特定的分数或收缩 回子向族中心收缩或移功它们。在算法的每一 步,再最近距离的代表点的两个旗合井,重复合并过 程,直至得到期盟的廉类数目。 CURE 算法克服了利用单个代表点戒毒§于质心 的方法的缺陷,ìlJ以发现非球形皮大小差异较大的 簸。解或尚散点的收缩降低了 CUREj事法对孤立点 的敏感性。 1.3 ROCK 算法 ROCK 算法:2)是在 CURE 算法的基础之上提出 的,它适用于枚举数据的凝嚣的层次聚类算法。通 过把附个族的聚集的班族性与用户定义的静态互连 收稿日朔 ;201O-{)1-27( 修改稿) 基金项目:陕四省自然科学』愈合资助项目 (2005F45) ;陕两省 科技攻关计划项目。ω5104喃G13) ? 10 ? 化工自动化及仪表 知 37 卷 位模J!Ut1比校,从而Jjt俄两个簇之间的相似度。其 中,两个簇的互遮住娃将两个簇之间的交叉的数目, 而连接是指网点之间的共同邻居敛.也就是簇间相 似度是则不同簇中共同邻居的点的数回来确定的。 其它有代表性的层次禁类算法还街 Chan暗leon 算法,李侃等i)1提出的2号子 SVM 的空间

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档