- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
因子分析和聚类分析
因子分析和聚类分析;因子分析;因子分析——数学模型;因子分析的计算过程;以我的学年论文为例,对河池市辖区内11个县市的经济发展分析
选取指标社会消耗品零售总额(x2)、固定资产投资(x3)、城镇居民可支配收人(x5)、生产总值(x7)、 第三产业(x10)、第二产业(x9)工业生产总值(x1)、农村居民人均纯收入(x4)、财政公共收入(x6)、第一产业(x8)
注意到它们之间存在相当程度的相关性;右图为部分相关系数矩阵截图,从中可以看出变量指标之间存在较强的相关性。(ps:相关系数在0.8-1,极强相关;0.6-0.8,较强相关;0.4-0.6,中等程度相关;而低于0.3则不适合做因子分析),我们通过观察相关系数矩阵来判断一组数据是否合适做因子分析,也可以通过KMO检验,两种方法相互印证。;用SPSS将标准化后的数据进行因子分析,得到方差分析表。此时注意到前三个因子的累积贡献率达到了93.9%,满足公共因子的条件,可以认为存在三个公共因子分别F1、 F12、F3;方差分析表中给出了按顺序排列的主成分得分的方差,从表中可以看出2015年的前三个因子的累计方差贡献率已经达到93.900%,即反映了原有信息量的93.900%,因此可以用这三个因子作为评价河池市辖区内县城的经济发展水平的变量;因子旋转的目的是建立因子载荷矩阵,通过因子载荷值表示公因子与原有变量的相关程度,我们亦可以通过它来分类。例如,我们可以看到公共因子F3在农村居民人均纯收入(x4)、财政公共收入(x6)、第一产业(x8)上的载荷比重很大,因此可以把它划分成一类,同理易知,F2,F3也是不同的两类。;因子得分及综合排名;聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
从实际应用的角度,聚类分析是数据挖掘的主要任务之一,而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合进一步地分析;聚类分析步骤;聚类分析的方法;首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个
其次,由系统选择k个(聚类的类数)观测量(也??由用户指定)作为聚类的种子
第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去
第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;
第五,然后根据这个中心重复第三,第四步,直到中心的迭代标准达到要求时,聚类过程结束。
;K-means算法本身思想比较简单,但是合理的确定K值对于聚类效果的好坏有很大影响
基于变化的算法:即定义一个函数,随着K值的改变,认为在正确的k时会产生极值。可以这么理解,当给定一个合理的类簇指标,比如平均半径或直径,只要我们假设的类簇的数目等于或高于真实的类簇的数目时,该指标上升会很缓慢,而一旦试图得到少于真实数目的类簇时,该指标会急剧上升,介于两者之间的某个点就是真实K值。;?;以河池市县城分类为例(k均值法);右表是聚类表,表示每个个案的分类情况,“聚类”表示的是该案例属于哪一类,“距离”表示该案例与其所属类别重心之间的距离;以河池市县城分类为例(系统聚类法);由上面的谱系图可以看出,南丹、宜州、金城江为第一类,而其余县市为第二类
而使用K均值法,宜州、金城江为第一类,南丹、天峨、大化为第二类,其余为第三类
可以看到,使用不同的聚类方法,所得到的结果都不径相同,尽管存在一些差异,但是对整体的影响并不大,所以可以认为两种方法都是合理的
;联系:因子分析是用少数几个公共变量因子来反映解释多个原始变量因子,且包含的信息量达到了原始变量的85%以上,起到了降维的作用给我们减少了工作的难度;聚类分析则是把研究对象视为多维空间中的许多点,并合理的把它分成若干类,分析的结果为群集,对向量聚群后,我们对数据的处理难度也相对降低,某种意义上来说也是一种降维
区别:聚类分析可以分为样品聚类和指标聚类,因子分析只对变量或指标分析;其实无论是因子分析还是聚类分析
都只是一种降维的工具方法
我们把很多纷乱复杂的因子通过降维的方法
提取当中的重要变量,进行分析
减少一些工作量
当然,以上两种分析方法都只是在为建立广义线性模型做准备
我们只是进行了一些很简单的数据挖掘,更深层次的数据建模乃至模拟预测效果,直至提出预测,还有待于今后的工作学习中再进行探讨研究。;谢谢
文档评论(0)