05第五章 非监督学习法5.3-5.4.ppt

§5.3 聚类方法 样本非球体分布的动态聚类算法 2、近邻函数准则算法 几种不同形状的数据构造的例子 特点:类内样本具有明显的近邻关系,因而可以利用这种关系,定义近邻函数,以执行动态聚类算法。 (1) 近邻关系描述 样本集中任何一对样本间的近邻关系可以用彼此是对方的第几个近邻的方式来描述。 例如: yi是yj的第I个近邻,而yj是yi的第K个近邻,则这一对样本之间的近邻函数值可定义为(I+K-2)。近邻函数值为: aij =I+K-2 (2) “连接”损失 用近邻关系进行聚类,可以看作是一种连接过程,即将具有适当近邻关系的样本连接成同一类,而避免在近邻关系较差的样本之间进行连接。 为了实现按近邻关系建立样本间的连接关系,可定义一个“连接”损失,以近邻函数值作连接损失值。采用这种定义,可以使连接趋向于发生在距离接近的样本之间。 为了防止样本自身实行连接,可将aij定义为2N或更大,其中N是样本集的样本数,这种定义是考虑到样本集内任何一对非自身的样本间的最大连接损失为(2N-4)即 样本之间的“连接”与“连接”损失 *中国矿业大学 计算机科学与技术学院 第五章 非监督学习法 聚类方法 不通过对概率密度函数作出估计而直接按样本间的相似性,或彼此间在特征空间中的距离长短进行分类,以使某种聚类准则达到极值为最佳。 两种对数据集进行聚类的方法: (1) 迭代的动态聚类算法 (

文档评论(0)

1亿VIP精品文档

相关文档