第8章-聚类资料讲解.pptxVIP

  • 6
  • 0
  • 约3.58千字
  • 约 80页
  • 2020-06-13 发布于浙江
  • 举报
;目录 CONTENTS;Chapter 8.1;;;;;;Chapter 8.2;;;;;;;;;;;;;;;;;;;;;;Chapter 8.3;;;;;;;;DIANA算法的基本过程分为以下几步: ①把所有对象整体作为一个初始簇; ②将splinter group和old party两个对象集合置空; ③在所有簇中挑出具有最大直径的簇C,找出C中与其他对象平均相异度最大的一个对象p,把p放入splinter group,剩余的对象放入old party中; ④然后不断的在old party里找出满足如下条件的对象:该对象到splinter group中的对象的最近距离小于等于到old party中的对象的最近距离,把该对象加入splinter group,直到没有新的old party的对象被找???。此时,splinter group和old party两个簇与其他簇一起组成新的簇集合; ⑤重复步骤③和④,直至簇的数目达到终止条件规定的数目。;例8.3 使用DIANA算法进行聚类 样本数据集如表8-2所示,样本点间欧几里得距离如表8-4所示。设终止条件为k=2,采用DIANA算法进行层次聚类。;?;?;?;? 缺点是已做的分裂操作不能撤销,类之间不能交换对象。如果在某步没有选择好分裂点,可能会导致低质量的聚类结果。大数据集不太适用。;;;AGNES算法的过程基本分为以下几步: ①将每个对象作为一个初始簇; ②根据两个簇中最近的数据对象找到最近的两个簇,合并两个簇,生成新的簇的集合; ③重复步骤②,直到达到定义的簇的数目。;例8.4 使用AGNES算法进行聚类 样本数据集如表8-2所示,样本点间欧几里得距离如表8-4所示。设终止条件为k=2,采用AGNES算法进行层次聚类。;?;?;?;;算法性能: AGNES算法比较简单,但一旦一组对象被合并,下一步的处理将在新生成的簇上进行。已做处理不能撤消,聚类之间也不能交换对象。增加新的样本对结果的影响较大。;Chapter 8.4;?;?;;DBSCAN(Density-Based Spatial Clustering of Application with Noise,具有噪声应用的基于密度的空间聚类)算法:在数据对象集中查找簇和噪声,这里的簇指的是对象集中的簇,即核心对象密度可达的所有对象的集合。 算法的基本思想:每个簇的内部点的密度比簇的外部点的密度要高得多。它定义簇为“密度相连”的最大对象集,不包含在任何簇中的对象被认为是“噪声”。 ;?;?;解:对图8-24中的对象以从上往下、从左往右的顺序进行编号,以标识对象。 ①标记所有点为unvisited。 ②随机选择点6,标记为visited,以它为圆心、半径为1的邻域内包含2个点,不满足不小于MinPts的要求,因此它不是核心点,暂标记为噪声。如图8-25所示。;③随机选择点2,标记为visited,以它为圆心、半径为1的邻域内包含3个点,不满足不小于MinPts的要求,可知其不是核心点,暂标记为噪声。 ④随机选择点1,标记为visited,以它为圆心、半径为1的邻域内包含3个点,不满足不小于MinPts的要求,可知其不是核心点,暂标记为噪声。;⑤随机选择点5,标记为visited,以它为圆心、半径为1的邻域内包含5个点,大于MinPts,可知其为核心点。生成新簇C1,将点5放入C1,即C1={5}。将点5的半径为1的邻域内的点放入候选集合N中,即N={2,4,6,7},其中点2和点6为visited,点4和点7为unvisited。 在N中选择unvisited的点4,标记为visited,以点4为圆心、半径为1的邻域内包含4个点,等于MinPts,可知点4也是核心点,因点4不属于其他簇,将点4放入C1,即C1={4,5}。将点4的半径为1的邻域内的点放入候选集合N中,即N={1,2,3,6,7},其中点1、点2和点6为visited,点3和点7为unvisited。 在N中选择unvisited的点3,标记为visited,以点3为圆心、半径为1的邻域内包含2个点,不满足不小于MinPts的要求,可知其不是核心点,因点3不属于其他簇,将点3放入C1,即C1={3,4,5},N={1,2,6,7},其中点1、点2和点6为visited,点7为unvisited。 在N中选择unvisited的点7,标记为visited,以点7为圆心、半径为1的邻域内包含3个点,不满足不小于MinPts的要求,可知其不是核心点,因点7不属于其他簇,将点7放入C1,即C1={3,4,5,7},N={1,2,6},其中点1、点2和点6为visited。 在N中点1、点2和点6虽为visited,但它们不属于其他簇,将它们放入C1

文档评论(0)

1亿VIP精品文档

相关文档