网站大量收购闲置独家精品文档,联系QQ:2885784924

Matlab 数据分析 课件 康海刚 第7章 聚类分析.pptx

Matlab 数据分析 课件 康海刚 第7章 聚类分析.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Matlab数据分析

第7章聚类分析

7.1简介7.1.1聚类分析的类型1.按分类对象不同进行聚类

7.1简介(1)R型聚类分析的主要作用1)不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。2)根据变量的分类结果以及它们之间的关系,可以选择主要变量进行Q型聚类分析或回归分析(R2选择标准)。(2)Q型聚类分析的主要作用1)可以综合利用多个变量的信息对样本进行分析。2)分类结果直观,聚类谱系图清楚地表现数值分类的结果。3)聚类分析所得到的结果比传统分类方法更细致、全面、合理。2.按分类对象的划分进行聚类1)使用自我组织的特征图或层次聚类,查找数据中可能的结构。2)使用聚类评估,查找给定聚类算法的“最佳”组数。

7.1简介3.Matlab中常见的硬聚类算法(1)k均值(kMeans)聚类算法1)原理。2)最佳使用时机。(2)k中心(kMedoids)聚类算法1)原理。2)最佳使用时机。

7.1简介(3)层次聚类算法1)原理。2)最佳使用时机。(4)自组织映射聚类算法1)原理。2)最佳使用时机。

7.1简介4.Matlab中常见的软聚类算法(1)模糊c均值聚类算法1)原理。2)最佳使用时机。(2)高斯混合模型聚类算法1)原理。2)最佳使用时机。

7.1简介7.1.2聚类分析的依据1.距离

7.1简介

7.1简介2.夹角余弦3.相关系数

7.2谱系聚类1.谱系聚类法基本思想1)聚类开始时将n个样品(或p个变量)各自作为一类,并规定样品之间的距离和类与类之间的距离。2)将距离最近的两类合并成一个新类。3)计算新类与其他类之间的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品(或p个变量)合并成一类。2.谱系聚类法基本步骤1)选择样本间距离及类间距离。2)计算n个样本两两之间的距离,得到距离矩阵。3)构造各类,每个类暂时只含有一个样本。4)合并符合类间距离定义要求的两类力一个新类。

7.2谱系聚类

7.2谱系聚类5)计算新类与当前各类的距离。6)画出谱系聚类图。7)作出结论,决定类的个数和类。3.Matlab中谱系聚类法的主要方法(1)pdist方法pdist方法的主要作用是计算构成样品对的样品之间的距离,调用格式如下:1)y=pdist(x)。2)y=pdist(x,metric)。

7.2谱系聚类

7.2谱系聚类(2)squareform方法squareform方法用来将pdist函数输出的距离转化为距离矩阵,也可将距离矩阵转化为距离向量。1)z=squareform(y):将pdist函数输出的距离向量转化力距离矩阵。2)y=squareform(z):将距离矩阵转化为距离向量。(3)linkage方法linkage函数用来创建系统聚类树,调用格式如下:1)z=linkage(y):创建系统聚类树,1是样品对的距离向量,一般是pdist方法的输出结果。2)z=linkage(y,method):利用method参数指定的方法创建系统聚类树,method是字符串,可用字符串见表7-2。

7.2谱系聚类(4)dendrogram方法dendrogram方法用于创建聚类树形图,调用格式为:(5)inconsistent函数inconsistent函数用来计算谱系聚类树矩阵Z中每次并类得到的链接的不一致系数,调用格式力:

7.2谱系聚类(6)clusterdata方法clusterdata函数调用了pdist、linkage和cluster函数,用来由原始样本数据矩阵X创建系统聚类。例7.1设有5个样品,分别表示北京、上海、安徽、陕西和新疆,每个样品只测试了一个指标,指标值分别为1、2、6、8、11,若样品间采用绝对值距离,下面用最短距离法对这5个样品进行聚类。解:计算过程如下。1)计算距离矩阵,代码如下,结果如图7-9所示。

7.2谱系聚类

7.2谱系聚类2)分步聚类,绘制聚类树形图,代码如下,结果如图7-10所示。

7.2谱系聚类例7.2(样品聚类综合案例)图7-11所示2007年我国31个省、白治区、直辖市的城镇居民家庭平均每人年消费性支出的8个主要数据变量,利用谱系聚类法,对各地区进行聚类分析。

7.2谱系聚类解:计算过程如下。1)读取数据,并进行标准化:2)调用clusterdata函数进行一步聚类:

7.2谱系聚类3)分步聚类:4)作出聚类树形图,如图7-12所示。5)确定分类个数。

7.2谱系聚类

7.2谱系聚类例7.3(变量聚类综合案例)在全国服装标准

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档