- 50
- 0
- 约7.41千字
- 约 75页
- 2018-03-09 发布于浙江
- 举报
[管理学]聚类分析
聚类分析 物以类聚,人以群分 在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。例如在市场调查方面,根据一些产品的价格与性能比,比如各种厂家生产的电脑及其型号、软硬件配置和价格等,可以发现那些电脑属于物廉价美型,哪些属于高端型,哪些又属于性价比较低型,这样的分类便于客户选择,也有利于行业调控。 在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。 随着多元统计学的发展,人们逐渐从之前的定性分类发展为利用数值方法对事物进行分类,由此使聚类分析的理论和应用得到了很大发展。 聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。 如何度量相似性 样品相似性的度量:常用距离来测度样品之间的相似程度。 变量相似性的度量:从它们的方向趋同性或“相关性”进行考察 距离的度量(样品间相似度) 每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量。如果把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。 1.明考夫斯基距离 明考夫斯基距离简称明氏距离,按的取值不同又可分成: (1)绝对值距离:q=1 (2)欧氏距离(q=2) (3)切比雪夫距离(q=∞) 定义的上述距离都与指标的量纲有关,任何一个变量计量单位的改变都会使该距离实质发生改变。另外,由于以上距离的定义没有考虑各个变量间的相关性和重要性,当观测数值相差悬殊时,某些数值特别大的指标会掩盖其它指标的作用。 2. 马氏距离 设Xi与Xj是来自均值向量为? ,协方差为∑ 的总体G中的p维样品,则两个样品间的马氏距离为: 马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据作线性变换后,马氏距离不变。 3.兰氏距离 它仅适用于一切Xij0的情况,这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。 4.距离选择的原则 一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。我们在进行聚类分析时,应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则: (1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。 (2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。 (3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。 相关性的度量(变量间相似度) 多元数据中的变量表现为向量形式,在几何上可用多维空间中的一个有向线段表示,在对多元数据进行分析时,我们更多地对变量的变化趋势或方向感兴趣。 当∣cij∣= 1时,说明变量Xi与Xj完全相似;当∣cij∣近似于1时,说明变量Xi与Xj非常密切;当∣cij∣ = 0时,说明变量Xi与Xj完全不一样;当∣cij∣近似于0时,说明变量Xi与Xj差别很大。 据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。 系统聚类方法 系统聚类方法的基本思想: 距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 系统聚类过程是:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n ?1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n ?2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。 几种常用的系统聚类方法 根据对类间距离
原创力文档

文档评论(0)