- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
05第五章非监督学习法5.3-5.4
* 中国矿业大学 计算机科学与技术学院 (49)* 样本非球体分布的动态聚类算法 2、近邻函数准则算法 几种不同形状的数据构造的例子 特点:类内样本具有明显的近邻关系,因而可以利用这种关系,定义近邻函数,以执行动态聚类算法。 * 中国矿业大学 计算机科学与技术学院 (49)* (1) 近邻关系描述 样本集中任何一对样本间的近邻关系可以用彼此是对方的第几个近邻的方式来描述。 例如: yi是yj的第I个近邻,而yj是yi的第K个近邻,则这一对样本之间的近邻函数值可定义为(I+K-2)。近邻函数值为: aij =I+K-2 * 中国矿业大学 计算机科学与技术学院 (49)* (2) “连接”损失 用近邻关系进行聚类,可以看作是一种连接过程,即将具有适当近邻关系的样本连接成同一类,而避免在近邻关系较差的样本之间进行连接。 为了实现按近邻关系建立样本间的连接关系,可定义一个“连接”损失,以近邻函数值作连接损失值。采用这种定义,可以使连接趋向于发生在距离接近的样本之间。 为了防止样本自身实行连接,可将aij定义为2N或更大,其中N是样本集的样本数,这种定义是考虑到样本集内任何一对非自身的样本间的最大连接损失为(2N-4)即 * 中国矿业大学 计算机科学与技术学院 (49)* 样本之间的“连接”与“连接”损失 * 中国矿业大学 计算机科学与技术学院 (49)* (3) 类内损失与类间损失 类内损失:是所有连接关系损失总和 两类间的最小近邻函数值rij 是ω1与ω2间各对样本近邻函数值的最小值,而ω1对所有c-1类的最小近邻值rij定义为: * 中国矿业大学 计算机科学与技术学院 (49)* 类内最大连接损失aimax :即ωi中各点间连接的最大连接损失值。 设ωi与ωk之间具有最小的近邻函数值即ri=rik,则类间的损失显然与ri, aimax及akmax这三者的关系有关,为此定义ω1对其它各类的类间损失为: * 中国矿业大学 计算机科学与技术学院 (49)* 总的类间损失定义为: 准则函数定义为: * 中国矿业大学 计算机科学与技术学院 (49)* (4) 近邻函数准则算法 步骤1:计算距离矩阵D 步骤2:利用矩阵D,确定近邻矩阵M,其元素Mij为样本yi与yj的近邻函数值。一般M为正定矩阵。M中元素都为整数。 步骤3:形成近邻函数矩阵L,其元素为: 而L矩阵对角元素Lij =2N(或更大) 。 * 中国矿业大学 计算机科学与技术学院 (49)* 步骤4:通过对矩阵L进行搜索,将每个点与和它有最小近邻函数值的点连接起来,从而形成初始聚类。 步骤5:对于在步骤4中所形成的每个类i计算ri,并与aimax及akmax进行比较。若ri小于或等于aimax及akmax中的任何一个,则合并类i和类k,即在这两类中建立“连接”。重复步骤5,直到无这样的“连接”发生为止,程序至此终止。 * 中国矿业大学 计算机科学与技术学院 (49)* 分级聚类方法 分级聚类方法的目的并不把N个样本分成某一个预定的类别数C,而是把样本集按不同的相似程度要求分成不同类别的聚类,它可以用一树形结构表示。 最极端的情况是每个样本各自为一类,N个样本共有N类,没有任何聚类,另一极端则是将所有样本归一类。在这两个极端之间的是类别数从N逐渐减少,每类的数量相应增加,而类内样本的相似程度要求也随之下降。这种聚类就是分级聚类, * 中国矿业大学 计算机科学与技术学院 (49)* 分级聚类方法示意图 * 中国矿业大学 计算机科学与技术学院 (49)* 聚类的相似性度量方法 最近距离: (2) 最远距离: (3) 均值距离: * 中国矿业大学 计算机科学与技术学院 (49)* 分级聚类算法 初始时设置Γj = yj ,?j∈I,I={j|j=1,2,…,N} , Γj表示各个聚类集合,N是样本数,初始时每个样本自成一类。 步骤2:把Γi并入Γk ,并去掉Γi。 步骤3:把i从指标集I中除掉,若I的基数仅等于2时,则终止计算,否则转向步骤1。 步骤1:在集合{Γj | j∈I}中找到一对满足条件 的聚类集合Γi与Γk。 其中?(Γi, Γk) 是该两聚类的相似性度量。 * 中国矿业大学 计算机科学与技术学院 (49)* 不同的相似性度量对聚类结果的影响 三种数据分布的例子 采用最近距离的距聚类结果 * 中国矿业大学 计算机科学与技术学院 (49)* 采用最远距离的距聚类结果 * 中国矿业大学 计算机科学与技术学院 (49)* §5.4 非监督学习方法中的一些问题 点集的数据构造、被分析的点集中样本点的数量、所采用的距离度量和相似性度量、所用的聚类准则,以及最终的聚类数都会影响到分类的结果。 样本各分量之间的尺度比例的确定也是十分重要的问题
文档评论(0)