网站大量收购闲置独家精品文档,联系QQ:2885784924

聚类分析(数学建模).ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

重心法(Centroidclustering):均值点的距离??由适当的阈值确定;根据数据点的散布直观地确定类的个数;根据统计量确定分类个数;010203类的个数的确定0102030405根据谱系图确定分类个数的准则:各类重心间的距离必须很大;类中保包含的元素不要太多;类的个数必须符合实际应用;如果采用几种不同的聚类方法处理,则在各种聚类图中应该发现相同的类。类的个数的确定聚类分析系统聚类法------(分层聚类)系统聚类法是应用最广泛的一种(HierarchicalCluster过程)聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为一类。分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类(R型)。非系统聚类法-----(快速聚类法----K-均值聚类法)(K-meansCluster)两步聚类法-----一种探索性的聚类方法(TwoStepCluster)四、系统聚类的参数选择㈠聚类类别:㈡统计㈢图:树型谱系图冰柱谱系图㈣聚类方法1.Between-groupslinkage类间平均法两类距离为两类元素两两之间平均平方距离2.Within-groupslinkage类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3.Nearestneighbor最短距离法4.Furthestneighbor最长距离法5.Centroidclustering重心法(欧式距离)6.Medianclustering中间距离法(欧式距离)7.WardMethod离差平方法(欧式距离)数据标准化处理:存储中间过程数据数据标准化处理,并存储。指定5类收敛标准值初始聚类中心表最终聚类中心表具体城市看后表聚类结果:QCL-1说明聚类结果,QCL-2说明聚类的长度情况主要城市日照时数注:连续变量SPSS提供不同类间距离的测量方法1、组间连接法2、组内连接法3、最近距离法4、最远距离法5、重心法6、中位数法7、Ward最小偏差平方和法观测量概述表聚类步骤,与图结合看!研究各种饮料在市场消费的分配规律,试确定各种饮料消费类型聚类分析01俗语说,物以类聚、人以群分。02但什么是分类的根据呢?03比如,要想把中国的县分成若干类,就有很多种分类法;04可以按照自然条件来分,05比如考虑降水、土地、日照、湿度等各方面;06也可以考虑收入、教育水准、医疗条件、基础设施等指标;07既可以用某一项来分类,也可以同时考虑多项指标来分类。分类研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。聚类分析把分类对象按一定规则分成若干类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。职能是建立一种能按照样品或变量的相似程度进行分类的方法。一、聚类分析的基本概念01020304对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,本章要介绍的分类的方法称为聚类分析(clusteranalysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。聚类分析聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把

文档评论(0)

SYWL2019 + 关注
官方认证
内容提供者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档