第五章聚类技术方案.pptVIP

下载本文档

102
0
约5.58千字
约 84页
2016-04-25 发布于湖北
举报
版权申诉

第五章聚类技术方案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K-means process Important: initial centroids or cluster centers and the number of clusters 注意：快速聚类需事先确定分几类容易产生局部最优而非全局最优，初始分类很重要初始类中心的确定自动选择必须给出允许分类的最大个数k 凭经验选择可以先选取部分样本作系统聚类（例如用Ward‘s方法，它与K-means的分类原则很相似），以得到初始分类的类中心（并确定分类数），建立一个初始中心数据文件, 快速聚类的SPSS实现快速聚类主对话框指定分类数先定初始类别中心，再按K-means算法叠代分类仅按初始类别中心点分类类中心的输入输出 “迭代”对话框：叠代终止准则限定K-means算法的收敛判据：0N1，含义：当两次叠代计算的最小的类中心的变化距离小于初始类中心距离的N%时，叠代停止。限定在每个观测量被分配到一类后，马上计算新的类中心。如不选此项，则在完成了所有观测量的一次分配后，再计算各类的类中心 “保存” 对话框建立一个新变量记录分类结果（默认名：qx1_1)。建立一个新变量记录各观测量距所属类中心间的欧式距离（默认名：qc1_2) “选项” 对话框缺失值处理将有缺失值的样本剔出只有当样本的全部聚类变量都缺失时才剔出样本，否则根据非缺失变量分类类别间距离差异是否显著的检验例题输出结果类别间距离差异均显著轿车市场细分例-续在系统聚类的基础上，用K-means进行进一步分析比较，确定最终分类数，并分析结果。分别按照分3类、4类和5类进行快速聚类，比较结果。对结果进行分析：计算各类平均得分五、变量聚类法分析的目的了解变量间及变量组合间的亲疏关系对变量进行分类根据分类结果及它们之间的关系，在每一类中选择有代表性的变量作为重要变量，用少数几个重要变量进一步作分析计算，如进行回归分析或Q型聚类。五、变量聚类法变量聚类例为了研究30个省、市、自治区1991年城镇居民消费的分布规律，对变量和样本分别进行聚类分析。月平均消费数据如表，其中：x1-人均粮食支出（元/人），x2-人均副食支出，x3-人均烟、酒、茶支出，x4-人均其他副食支出，x5人均衣着支出，x6-人均日用品支出，x7-人均燃料支出，x8-人均非商品支出变量聚类例先作样本聚类：类平均法、ward法再作变量聚类样本距离测度：夹角余弦或相关系数类距离：最短距离法、最长距离法、类平均注意：重心法、median、ward法都要求用欧式距离平方数据 Ward法类平均法样品聚类结果变量聚类：相关性强的指标归并到一起相关系数 x1-人均粮食支出 x2-人均副食支出 x3-人均烟酒茶支出， x4-人均其他副食支出 x5人均衣着支出 x6-人均日用品支出， x7-人均燃料支出 x8-人均非商品支出聚类分析小结 1．聚类分析的概念 2．两种聚类思想：系统聚类、快速聚类谱系图确定分类数 3．Q-型聚类分析 4．R-型聚类分析 5．SPSS的聚类分析过程 6．聚类分析的结果评述系统聚类的统计思想对于位置类别的样本或变量，依据相应的定义把它们分为若干类，分类过程是一个逐步减少类别的过程，在每一个聚类层次，必须满足“类内差异小，类间差异大”原则，直至归为一类。评价聚类效果的指标一般是方差，距离小的样品所组成的类方差较小。快速聚类的基本思想动态聚类的方法源于数学中的迭代算法，就是当样品进行聚类时，先给定一个比较粗糙的初始分类，然后设计某种原则进行类别的修改，不断调整和改正这些类别的样品组成，直到比较合理为止。为了迅速找到一种初始分类，我们一般先选择一些凝聚点，让样品依照某种规则向凝聚点凝聚。动态凝聚的一般步骤是：选凝聚点初始分类分类是否合理？最终分类修改分类聚类分析的特点不同聚类方法所得到的分类结果可能不同。统计的优势在于每一种聚类过程可以在瞬间完成，因此可以进行大量尝试性的分析，并对结果进行比较，以便我们对数据做出更加合理的结论。 6个民族的粗死亡率与期望寿命哈萨克与藏族的距离最短，最先合并形成新类CL7 新类CL7和其余四类的距离第二次合并新类和各类的距离第三次合并第四次合并最后合并成一类谱系图不显示实际距离，显示0-25的比例距离树状图冰柱图 1 2 3 4 5 融合在一起的为一类（二）最长距离法类与类之间的距离是两类间两两样品间的最长距离前例：最长距离法第1次合并仍取最短欧式距离新类和各类的距离：取最大值第2次合并新类和各类的距离：取最大值第3次合并第4次合并最后合并例题 5