- 3
- 0
- 约5.96千字
- 约 28页
- 2016-11-26 发布于河北
- 举报
MBA统计学11聚类分析[28p]
统计学 ─从数据到结论 第十一章聚类分析 分类 物以类聚、人以群分; 但根据什么分类呢? 如要想把中国的县分类,就有多种方法 可以按照自然条件来分,比如考虑降水、土地、日照、湿度等, 也可考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。 聚类分析 对一个数据,既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。 当然,不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。它们在数学上是无区别的。 饮料数据(drink.txt ) 16种饮料的热量、咖啡因、钠及价格四种变量 11.1如何度量距离远近? 如果想要对100个学生进行分类,而仅知道他们的数学成绩,则只好按照数学成绩分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。 11.1如何度量距离远近? 三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。 在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。 两个距离概念 按照远
原创力文档

文档评论(0)