统计学聚类分析教材.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学;第十一章聚类分析 ;11.1如何度量距离远近?;11.1如何度量距离远近?;两个距离概念;两个距离概念;两个距离概念;向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数:;类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离); 组内平均连接法(Within-group Linkage) ;重心法(Centroid clustering):均值点的距离 ;离差平方和法连接;红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法的连接和黄红首先连接。;有了上面的点间距离和类间距离的概念,就可以介绍聚类的方法了。这里介绍两个简单的方法。 ;11.2 事先要确定分多少类:k-均值聚类 ;11.2 事先要确定分多少类:k-均值聚类 ;假定要把这16种饮料分成3类。利用SPSS,只叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以及每类有多少点 ;根据需要,可以输出哪些点分在一起。结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。;SPSS实现(聚类分析);11.2 事先不用确定分多少类:分层聚类 ;对于饮料聚类。 SPSS输出为;;“冰柱图”(icicle);例:5个样品距离阵 令Dk为系统聚类法种第k次合并时的距离,如{Dk}为单调的,则称具有单调性.前面只有重心和中间距离法不具有单调性.;聚类要注意的问题 ;聚类要注意的问题 ;SPSS实现(聚类分析);统计学;第十二章 判别分析 ;12.1 判别分析 (discriminant analysis) ;判别分析(discriminant analysis);判别分析例子;判别分析例子;Disc.sav数据 ;1. 根据距离判别的思想;1. 根据距离判别的思想;2. Fisher判别法(先进行投影);;2. Fisher判别法(先进行投影);Fisher判别法的数学;3.逐步判别法 (仅仅是在前面的方法中加入变量选择的功能);Disc.txt例子;Disc.txt例子;;Disc.txt例子;Disc.txt例子;Disc.txt例子;误判和正确判别率;Disc.txt例子;Disc.txt例子;12.2判别分析要注意什么?;判别分析要注意什么?;判别分析要注意什么?;SPSS选项;附录;费歇(Fisher)判别法;将Gm组中数据投影的均值记为 有;组间离差平方和为:;注:L=|E|/|B+E|为有Wilks分布的检验零假设H0:m(1)=…= m(k)的似然比统计量. Wilks分布常用c2分布近似(Bartlett);希望寻找a使得SSG尽可能大而SSE尽可能小,即;m个判别函数的判别能力定义为;判别分析 (Discriminant Analysis) ;和聚类分析的关系;距离判别法;Mahalanobis距离;线性判别函数:当S(1)=S(2)=S时;当m(1), m(2), S 已知时, 令a= S-1(m(1)- m(2) ) ≡(a1,…, ap)’,则;当m(1), m(2), S 未知时, 可通过样本来估计:;非线性判别函数:当S(1) ≠S(2)时;多总体时的线性判别函数:当S(1)=…=S(k)=S时;非线性判别函数:当S(1) ,…, S(k) 不等时;m个判别函数的判别能力定义为;总体方差不等时,注意到 的样本方差为 ;用m个线性判别函数yi(x) =vi’x,i=1,…,m,时, 先将样本点在L(vi,…,vm )空间投影再按照p1情况的距离判别法来制定判别规则. 判别能力为;m=1时, 不加权法:;m1时, 不加权法: 记 对x=(x1,…,)’, yl(x)=v(l)’x;Bayes判别法;逐步判别法;鸢尾花数据(花瓣,花萼的长宽) 5个变量:花瓣长(slen),花瓣宽(swid), 花萼长(plen), 花萼宽(pwid), 分类号(1:Setosa, 2:Versicolor, 3:Virginica)(data14-04);Statistics→Classify →Discriminant: Variables: independent (slen,swid,plen,pwid) Grouping(spno) Define range(min-1,max-3) Classify: prior probability(All group equal) us

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档