- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Matlab数据分析
第7章聚类分析
7.1简介7.1.1聚类分析的类型1.按分类对象不同进行聚类
7.1简介(1)R型聚类分析的主要作用1)不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。2)根据变量的分类结果以及它们之间的关系,可以选择主要变量进行Q型聚类分析或回归分析(R2选择标准)。(2)Q型聚类分析的主要作用1)可以综合利用多个变量的信息对样本进行分析。2)分类结果直观,聚类谱系图清楚地表现数值分类的结果。3)聚类分析所得到的结果比传统分类方法更细致、全面、合理。2.按分类对象的划分进行聚类1)使用自我组织的特征图或层次聚类,查找数据中可能的结构。2)使用聚类评估,查找给定聚类算法的“最佳”组数。
7.1简介3.Matlab中常见的硬聚类算法(1)k均值(kMeans)聚类算法1)原理。2)最佳使用时机。(2)k中心(kMedoids)聚类算法1)原理。2)最佳使用时机。
7.1简介(3)层次聚类算法1)原理。2)最佳使用时机。(4)自组织映射聚类算法1)原理。2)最佳使用时机。
7.1简介4.Matlab中常见的软聚类算法(1)模糊c均值聚类算法1)原理。2)最佳使用时机。(2)高斯混合模型聚类算法1)原理。2)最佳使用时机。
7.1简介7.1.2聚类分析的依据1.距离
7.1简介
7.1简介2.夹角余弦3.相关系数
7.2谱系聚类1.谱系聚类法基本思想1)聚类开始时将n个样品(或p个变量)各自作为一类,并规定样品之间的距离和类与类之间的距离。2)将距离最近的两类合并成一个新类。3)计算新类与其他类之间的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品(或p个变量)合并成一类。2.谱系聚类法基本步骤1)选择样本间距离及类间距离。2)计算n个样本两两之间的距离,得到距离矩阵。3)构造各类,每个类暂时只含有一个样本。4)合并符合类间距离定义要求的两类力一个新类。
7.2谱系聚类
7.2谱系聚类5)计算新类与当前各类的距离。6)画出谱系聚类图。7)作出结论,决定类的个数和类。3.Matlab中谱系聚类法的主要方法(1)pdist方法pdist方法的主要作用是计算构成样品对的样品之间的距离,调用格式如下:1)y=pdist(x)。2)y=pdist(x,metric)。
7.2谱系聚类
7.2谱系聚类(2)squareform方法squareform方法用来将pdist函数输出的距离转化为距离矩阵,也可将距离矩阵转化为距离向量。1)z=squareform(y):将pdist函数输出的距离向量转化力距离矩阵。2)y=squareform(z):将距离矩阵转化为距离向量。(3)linkage方法linkage函数用来创建系统聚类树,调用格式如下:1)z=linkage(y):创建系统聚类树,1是样品对的距离向量,一般是pdist方法的输出结果。2)z=linkage(y,method):利用method参数指定的方法创建系统聚类树,method是字符串,可用字符串见表7-2。
7.2谱系聚类(4)dendrogram方法dendrogram方法用于创建聚类树形图,调用格式为:(5)inconsistent函数inconsistent函数用来计算谱系聚类树矩阵Z中每次并类得到的链接的不一致系数,调用格式力:
7.2谱系聚类(6)clusterdata方法clusterdata函数调用了pdist、linkage和cluster函数,用来由原始样本数据矩阵X创建系统聚类。例7.1设有5个样品,分别表示北京、上海、安徽、陕西和新疆,每个样品只测试了一个指标,指标值分别为1、2、6、8、11,若样品间采用绝对值距离,下面用最短距离法对这5个样品进行聚类。解:计算过程如下。1)计算距离矩阵,代码如下,结果如图7-9所示。
7.2谱系聚类
7.2谱系聚类2)分步聚类,绘制聚类树形图,代码如下,结果如图7-10所示。
7.2谱系聚类例7.2(样品聚类综合案例)图7-11所示2007年我国31个省、白治区、直辖市的城镇居民家庭平均每人年消费性支出的8个主要数据变量,利用谱系聚类法,对各地区进行聚类分析。
7.2谱系聚类解:计算过程如下。1)读取数据,并进行标准化:2)调用clusterdata函数进行一步聚类:
7.2谱系聚类3)分步聚类:4)作出聚类树形图,如图7-12所示。5)确定分类个数。
7.2谱系聚类
7.2谱系聚类例7.3(变量聚类综合案例)在全国服装标准
您可能关注的文档
- Matlab 数据分析 课件 康海刚 第8章 分类.pptx
- Matlab 数据分析 课件 康海刚 第6章 多元线性回归模型.pptx
- Matlab 数据分析 课件 康海刚 第5章 数据探索与分析.pptx
- Matlab 数据分析 课件 康海刚 第3、4章 随机模拟、数据预处理.pptx
- Matlab 数据分析 课件 康海刚 第1、2章 数据的基本概念及其应用、Matlab 基础.pptx
- 医药生物-中医连锁行业深度报告:饮片联采影响有限,线上中医增长迅速(202212).pdf
- 先进制造业国家战略报告(2022)-美国.pdf
- 医疗机器人产业发展报告(2023.8)中国医疗机器人产业发展形势分析与展望.pdf
- 智能驾驶行业研究报告:特斯拉FSD爆发前夜,国内智驾产业加速发展.pdf
- 医药及医疗器械临床前研发外包服务市场研究报告(2022).pdf
- 一城一云服务城市高质量发展白皮书(2023).pdf
- 中国连锁餐饮企业资本之路系列报告(2023)-历尽千帆,厚积薄发.pdf
- 有色金属行业专题研究:未来焦点,钒液流电池储能风潮兴涌.pdf
- 中国 “一带一路”实践与观察报告.pdf
- 医药生物-消费器械行业2023年中报总结:积极拥抱高璧垒高成长(202309).pdf
- DB50T 699-2016 简易升降机检验规则.pdf
- DB50T 746-2016 水库大坝安全监测资料整编分析规程 .pdf
- 看DAO2025-未尽研究报告(2024).pdf
- 市场洞察力报告-数据安全检查工具箱(2024).pdf
- 2024年预见未来:中国元医院建设发展调研报告.pdf
文档评论(0)