模式识别作业2.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四次课的作业: 课件中“层次聚类”部分中的所有方法的优缺点比较(如有其他层次聚类方法可以加入) 层次聚类算法,也称为聚类算法,它是通过将数据组织为若干组并形成一个相应的树来进行聚类的。在实际应用中一般有两种层次聚类方法: (1) 凝聚的层次聚类:这种自底向上的策略首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被达到要求。大部分的层次聚类方法都属于一类,它们在簇间的相似度的定义有点不一样。 (2) 分裂的层次聚类:像这样的自顶向下的策略与凝聚的层次聚类有些不一样,它首先将所有对象放在一个簇中,然后慢慢地细分为越来越小的簇,直到每个对象自行形成一簇,或者直达满足其他的一个终结条件,例如满足了某个期望的簇数目,又或者两个最近的簇之间的距离达到了某一个阈值。 在凝聚的层次聚类方法和分裂的层次聚类的所有的方法中,都需要用户提供所希望所得到的聚类的单个数量和阈值作为聚类分析的终止条件,但是对于复杂的数据来说这个是很难事先判定的。尽管层次聚类的方法实现的很简单,但是偶尔会遇见合并或分裂点的抉择的困难。这样的抉择是特别关键的,因为只要其中的两个对象被合并或者分裂,接下来的处理将只能在新生成的簇中完成。已形成的处理就不能被撤消,两个聚类之间也不能交换对象。如果在某个阶段没有选择合并或分裂的决策,就非常可能会导致不高质量的聚类结果。而且这种聚类方法不具有特别好的可伸缩性,因为他们合并或分裂的决策需要经过检测和估算大量的对象或簇。 层次聚类算法由于要使用距离矩阵,所以它的时间和空间复杂性都很高O(),几乎不能在大数据集上使用。层次聚类算法只处理符合某静态模型的簇忽略了不同簇间的信息而且忽略了簇间的互连性(互连性指的是簇间距离较近数据对的多少)和近似度(近似度指的是簇间对数据对的相似度)。 2.使用基于中心、邻近性和密度的方法,识别图8.3中的簇。对于每种情况指出簇个数,并简要给出你的理由。注意,明暗度或点数指明密度。如果有帮助的话,假定基于中心即K均值,近于邻近性即单链,而基于密度为DBSCAN。 (a) 基于中心的方法有2个簇。矩形区域被分成两半,同时2个簇里都包含了噪声数据; 基于邻近性的方法有1个簇。因为两个圆圈区域受噪声数据影响而形成一个 簇; 基于密度的方法有2个簇,每个圆圈区域代表一个簇,而噪声数据会被忽略。 (b) 基于中心的方法有1个簇,该簇包含图中的一个圆环和一个圆盘; 基于邻近性的方法有2个簇,外部圆环代表一个簇,内层圆盘代表一个簇; 基于密度的方法有2个簇,外部圆环代表一个簇,内层圆盘代表一个簇。 (c) 基于中心的方法有3个簇,每个三角形代表一个簇; 基于邻近性的方法有1个簇,三个三角形区域会联合起来因为彼此相互接触; 基于密度的方法有3个簇,每个三角形区域代表一个簇。即使三个三角形相互接触,但是所接触的区域的密度比三角形内的密度小。 (d) 基于中心的方法有2个簇。两组线被分到两个簇里; 基于邻近性的方法有5个簇。相互缠绕的线被分到一个簇中; 基于密度的方法有2个簇。这两组线定义了被低密度区域所分割的两个高密度的区域。 3 .假定一个数据集有个点,个簇。一半的点和簇在“较稠密的”区域。一半的点和簇在“不太稠密的”区域。两个区域之间是明显分离的。对于给定的数据集,下面哪种情况可以最小化寻找个簇时的平方误差? (a)在较稠密和不太稠密的区域质心分布应当相同。 (b)不太稠密的区域应当分配更多的质心。 (c)较稠密的区域应当分配更多的质心。 注意:不要被特殊的情况转移视线,也不要引进除密度之外的因素。然而,如果你感到从上面给定的条件很难得到答案,阐明你的理由。 解:在(a)种情况下,可以最小化寻找k个簇时的平方误差,由于数据集的点和簇在两个区域的数目是相同的,所以当两个区域的质心分布相同时,平方误差最小。而(b)与(c)两种情况下,簇应该按照两个区域的质心分布来确定,此时才能最小化平方误差。 4.平面上个点集合的Voronoi图是将平面上的所有点分成个区域的一个划分,使得(平面上)每个点都指派到个指定点中最近的一个(见图8.5)。Voronoi图与K均值之间的关系是什么?关于K均值簇的可能形状,Voronoi图能告诉我们什么? 解:Voronoi图,又叫 HYPERLINK /view/5095539.htm \t /_blank 泰森多边形或 HYPERLINK /view/486343.htm \t /_blank Dirichlet图,它是由一组由连接两邻点直线的 HYPERLINK /view/541136.htm \t /_blank 垂直平分线组成的连续多边形组成。N个在平面上有区别的点,按照最邻近原

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档