- 224
- 0
- 约2.83万字
- 约 152页
- 2017-08-05 发布于湖北
- 举报
05聚类分析
实现度量值的标准化:将原来的度量值转换为无单位的值。 为什么这么做? 选用的度量单位会直接影响聚类结果。例如千克改为克。一般,所用的单位越小,变量的值域就越大,对聚类的影响也越大。为了避免数据对度量单位的依赖,数据应当标准化。 * 即:两个相异的数量作为分子,相异的数量加两个为1(几率小的)的数量作为分母。(同对称二元变量相比,两个同为0的数量不出现在分母中) 聚类旨在发现有用的对象组(簇)。这里的有用性由数据挖掘目标定义;这里使用二维数据点作为数据对象。但,这些簇类型同样适合于其他数据。 有时候,使用一个阈值来说明簇中所有对象相互之间必须充分接近 仅当数据包含相互远离的自然簇时,簇的这种理想定义才能满足。 对于许多数据类型,原型可视为最靠近中心的点; 当簇不规则或缠绕时,簇的这种定义是有用的。但当数据出现噪声时就可能出现问题,如第二中,一个小的点桥就可能合并两个不同的簇。 该图数据通过对上一副图中的数据添加噪声创建的。两个圆形簇之间的点桥消失在噪声中,所以没有合并,曲线也消失在噪声中。 当簇不规则或互相盘绕,且有噪声和离群点时,比较适用。 基于中心的簇的对象都具有共同的性质:他们都离相同的质心或中心点最近 将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。 K均值用质心作为原型,其中质心是一组点的均值。用于N维连续空间中的对象。 K中心使用中心点作为
原创力文档

文档评论(0)