- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数理统计大作业(二)_北航汇编
英超球队的聚类分析和判别分析摘要英格兰足球超级联赛(Premier League),通常简称“英超”,是英格兰足球总会属下的职业足球联赛,欧洲五大联赛之一,由20支球队组成。由超级联盟负责具体运作。英格兰超级联赛成立于1992年2月20日,是英格兰联赛系统的最高等级联赛,其前身是英格兰足球甲级联赛。每个赛季结束积分榜末三位降入第二级别的英格兰足球冠军联赛。 英超一直以来被认为是世界上最好的联赛之一,快节奏、竞争激烈、强队众多,现已成为世界上最受欢迎的体育赛事之一,也是收入最高的足球联赛。本文采用聚类分析和判别分析这两类数据分析方法对2014-2015赛季英格兰足球超级联赛参赛球队进行了分类与判别。应用SPSS软件首先对其中18支参赛队样本进行系统聚类分析,样本数据取自其比赛数据,得到树状谱系图,并将其强制分为三类。然后根据另外两支球队的数据,利用聚类分析得到的分组结果,用Fisher 判别分析法进行判定,最终确定两支球队所属类别。关键词:英超、SPSS、聚类分析、判别分析1引言在多元统计分析中,常常使用聚类分析(Cluster Analysis)和判别分析(Discriminant Analysis)来解决样本的分类问题。在事先并不知道应将样品或指标分为几类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类;而在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。聚类分析又称群分析,是分类学的一种基本方法。聚类分析的基本原理是把某种性质的对象归于同一类而不同类之间则存在较大差异。聚类分析包括Q聚类和R聚类判别分析是根据观察或测量到的若干变量值来判断研究对象如何分类的方法,目的是得到体现分类的函数关系式,即判别函数。基本思想是在利用观测对象的分类和特征变量的前提下,从中筛选出能够提供较多信息的变量,建立判别函数,目标是使得到的判别函数对观测量判别其所属类别时错判率最小。英格兰足球超级联赛(Premier League),通常简称“英超”,是英格兰足球总会属下的职业足球联赛,欧洲五大联赛之一,由20支球队组成。英超一直以来被认为是世界上最好的联赛之一,快节奏、竞争激烈、强队众多,现已成为世界上最受欢迎的体育赛事之一,也是收入最高的足球联赛。2013年1月8日,国际足球历史和统计联合会(IFFHS)公布了2012年世界最强国家联赛的排名,西甲连续第3年荣膺世界第一联赛,巴甲力压德甲、意甲和英超列第二。英超延续颓势,2012年仅排名第5,这是因为来自英超的球队在欧洲赛事表现低迷,切尔西尽管夺得2011/2012赛季欧冠冠军,并不能掩盖英超的整体表现。本文利用多元统计方法,采用SPSS 软件,对2012-2015赛季意大利足球甲级联赛参赛球队进行了分类与判别(聚类类型:Q 型聚类;聚类方法:分层聚类),产生分组结果。并且利用Fisher 判别对另外两队就行判别分析、归类。2数据的采集及标准差标准化处理本文选取的数据来自网易国际足球数据直播。选取2012-2013赛季意大利足球甲级联赛前15轮比赛的各项数据作为分类的自变量,分别是联赛排名、胜利场次、平局场次、进球总数、失球总数、联赛积分。数据整理结果如表2-1所示。表2-1 2014-2015赛季英超球队统计数据无论是应用聚类分析还是判别分析,都要对数据进行标准化处理。本文采用标准差标准化对数据进行处理。Z得分值法标准化就是把个案转换为样本均值为0、标准差为1的样本。在SPSS 软件中,事先不需要进行数据的标准化处理,在接下来的聚类分析中,我们选择在系统聚类对话框,选择方法中勾选Z scores(即Z 得分值),此时软件会自动在聚类分析之前将所有变量值按照统计量的标准化方法进行标准化。3 聚类分析3.1 聚类分析概述聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。研究怎样对事物进行合理分类(归类)的统计方法称为聚类(clustering)分析。依据分类对象的不同可以把聚类分析再分成Q 型聚类和R 型聚类,Q 型聚类是指对样品进行聚类,R 型聚类是指对变量进行聚类。聚类分析的基本原理是把某种性质相似的对象归于同一类,而不同类的之间则存在较大差异。为此,首先要能刻画各个变量之间或者各个样本点之间的相似性。Q 聚类一般使用“距离”度量样本点之间的相似性,定义样本点之间的距离可以采用欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等测度。R 聚类则使用“相似系数”作为变量相似性的度量。定义各变量之间的相似系数则多采用样本相关系数
文档评论(0)