- 7
- 0
- 约2.3万字
- 约 6页
- 2017-08-14 发布于天津
- 举报
维度概率摘要模型及其层次聚类算法
第 卷 第 期 控 制 与 决 策
年 月
文章编号
维度概率摘要模型及其层次聚类算法
刘世华 黄德才
浙江工业大学计算机科学与技术学院,杭州; 温州职业技术学院信息技术系,浙江温州
摘 要 提出一种维度概率摘要模型 将聚类产生的簇摘要信息采用各维度的概率分布来表示 定义点簇相似度、
簇簇相似度等相似性度量方法 提出一种基于维度概率摘要模型的凝聚层次聚类算法 实验分析发现 所提模型
和算法能够产生高质量的聚类 能够避免噪声点的影响并发现离群点 能够自动发现聚类 算法稳定可靠且对高维
数据集聚类效果很好
关键词 维度概率分布;维度概率摘要模型;点簇相似度;簇簇相似度;层次聚类
中图分类号 文献标志码
, , ;
, , ,
; ;
; ;
言 何自动确定数据集包含的簇数目等
聚类分析一直是数据挖掘和机器学习领域的研 以 为代表的基于划分的聚类算法以其
究热点之一 在模式识别、统计学、生物学、市场营销 简单高效的优势得到了广泛的应用但其仍存在很多
问题 如对初始簇中心点的选取敏感 易于陷入局部
等各个领域都有广泛的应用 聚类分析的目标是
发现数据对象集中有某种意义的“自然”分组 即所 最优解 需要事先指定簇数目 对噪声点或离群点敏
谓的“簇” 聚类研究是研究某种数据分类方法 感等 此外 基于划分的聚类算法基本上都是用一
使同一簇内数据对象尽量紧凑或相似 而不同簇之间 个或多个中心点如 中的均值和
中的中心代表点 来代表整个簇 这将导致簇中的部
的对象尽量不同
算法出现的几十年来 聚类分析的各种 分信息丢失 例如一个分布紧凑的簇和一个相对分
散的簇有可能具有一样的中心代表点但其簇内的紧
算法层出不穷 包括改进距离度量方式、结合生物
计算或智能算法进行优化等 但聚类分析研究的 密程度是不一样的 为此 王玲等 提出了聚类中心
几大主要问题却仍未得到很好地解决 其主要包括 和聚类半径的概念 罗印升等 定义了一个包含簇中
如何合理计算数据点之间的相异或相似程度 如何消 数据点数目、中心
原创力文档

文档评论(0)