研究样品或变量的亲疏程度的数量指标有两种一种叫距离.pptVIP

  • 4
  • 0
  • 约9.56千字
  • 约 76页
  • 2019-05-24 发布于江苏
  • 举报

研究样品或变量的亲疏程度的数量指标有两种一种叫距离.ppt

第10章 聚类分析 Cluster Analysis 1 聚类分析问题 2 相似性度量 3 聚类的准则 4 聚类方法 1 聚类分析的基本问题 1)聚类问题 2)对象特征的描述 3)数据的预处理 1) 聚类问题 1) 聚类问题 1) 聚类问题 1) 聚类问题 1) 聚类问题 聚类分析要解决的问题 2)对象特征的描述 2)对象特征的描述 2)对象特征的描述 3)数据的预处理 3)数据的预处理 ① 总和标准化 3)数据的预处理 3)数据的预处理 2 相似性度量 1) 样本之间的相似性度量 2) 类之间的相似性度量 另一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。 1) 样本之间的相似性度量 明考夫斯基距离主要有以下两个缺点 ①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 ②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。 1) 样本之间的相似性度量 1) 样本之间的相似性度量 2) 类之间的相似性度量 2) 类之间的相似性度量 3 聚类的准则 1)类的特点 2)聚类的准则函数 1)类的特点 2)度量聚类结果的准则函数 2)度量聚类结果的准则函数 2)度量聚类结果的准则函数 2)度量聚类结果的准则函数 4 聚类方法 1) 系统聚类法 2) 分解聚类法 3) 动态聚类法 4) K均值法 1)系统聚类法 Hierarchical Cluster 系统聚类法基本步骤 系统聚类法基本步骤 类间距离计算的递推公式 类间距离计算的递推公式 类间距离计算的递推公式 类间距离计算的递推公式 应用实例 某电冰箱厂开发某一新产品,在投放市场前希望对以往经销 SPSS实现(系统聚类) 1)在SPSS中选择Analyze-Classify-Hierarchical Cluster, 2)将变量选入Variables, 3)在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables, 4)为了画出树状图,选Plots,再点Dendrogram等。 2) 分解聚类法 基于类间距离最大化的二分法 基于类间距离最大化的二分法 算法框图 例 已知21个样本,每个样本取二个特征,原始资料矩阵如下表: 次数 X1→X2 E值 1 x21 56.6 2 x20 79.16 3 x18 90.90 4 x14 102.61 5 x15 120.11 6 x19 137.15 7 x11 154.10 8 x13 176.15 9 x12 195.26 10 x17 213.07 11 x16

文档评论(0)

1亿VIP精品文档

相关文档