我国31省市教育水平的聚类分析.docVIP

下载本文档

89
0
约2.47千字
约 5页
2017-03-25 发布于北京
举报
版权申诉

我国31省市教育水平的聚类分析.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

我国31省市教育水平的聚类分析.doc

我国31省市教育水平的聚类分析　　摘要教育实力是一国综合国力的重要组成部分。充分了解我国各地区的教育水平具有重大意义。本文建了一个含有9个一级指标，31个二级指标的评级指标体系，同时应用聚类方法和基于PCA的聚类方法对31各省市的教育水平进行聚类分析，并通过比较两种方法得到的结果，表明基于PCA的聚类方法是可行的。　　关键词聚类分析 PCA分析教育水平 R软件　　中图分类号：G649.2 文献标识码：A 　　0引言　　教育实力是一国综合国力的重要组成部分。教育竞争力在提升一国综合国力中有着特殊的地位和作用，直接关系到科技竞争力和企业竞争力，从整体上影响到国家的综合竞争力。认清我国教育竞争力在国际上的位置，对于国家科学地制定教育发展战略，实现从人口大国迈向人力资源强国的转变，推进教育现代化进程具有十分重要的意义。　　目前我国教育水平虽然得到了长足的发展，但依旧存在问题。因此通过对31各省市的教育水平的聚类分析，能够更加清楚的认识各地区以及我国的教育水平现状，了解哪些地区之间相似，哪些差异较大，并以此为依据，制定区域联合政策来提高区域教育水平。所以对区域教育水平的分析具有重要意义。同时通过将基于PCA的聚类方法与传统聚类分析方法进行比较，来说明基于PCA的聚类方法的可靠性。　　1建立各省市教育水平指标体系　　教育水平是一个综合、系统的概念，因此构建一个层次分明、结构完整的评价指标体系是必须的。指标体系的合理与否，决定了对教育水平评价的准确程度。因此，构建一个合理的指标评价体系应该遵循以下6个基本原则：相关性原则、全面性原则、经济性原则、重要性原则、可操作性原则、相对稳定性原则。　　本文在6个基本原则的基础上构建含有9个一级指标和31个二级指标的省市教育水平评价指标体系。表1列出了省市教育水平评价指标体系框架。　　2本文研究涉及的方法：PCA和聚类分析　　本文在对各省市教育水平的评价时，首先采用聚类分析对31个二级指标进行分析。但因为教育水平的评价需要的指标数量较多，计算量较大，所以第二种方法先采用PCA，将具有相关性的多个指标，转化为几个相互独立的综合指标（PC），再对各省市的教育水平进行聚类分析。这样做的好处就是通过PCA在没有损失太多信息条件下，减少了指标个数从而达到减小计算的复杂性。　　下面对本文所涉及的PCA、聚类分析进行介绍。　　2.1 PCA 　　PCA是利用降维的思想：设研究问题有P个指标，这P个指标构成的P维随机向量x=（x1，x2，…，xp）。对x作正交变换：y=Ux，其中U为正交阵，y的各分量是不相关的，我们从y的主分量中选择主要成分，剔除对所研究问题影响微弱的部分，通过对Y的主分量的重点分析，达到对原始变量进行分析的目的。PCA分析法的基本步骤如下：　　（1）确定分析指标，收集数据。　　（2）确定指标矩阵。　　设高校Ai（i=1，2，…，n）在指标Sj（j=1，2，…，p）下取值为xij得到指标矩阵：　　X=（x）（2.1）　　（3）由于各指标反映的数量角度不同，且各指标的量纲也不同，所以，要对数据进行中心标准化，即　　X→HXD-1 （2.2）　　其中H=I?Ha11T，D=diag{||HX（1）||，…，||HX（p）||}变换后的数据阵仍记为X。　　（4）求XTX的特征值?%d1≥…≥?%dp≥0和对应的标准特征向量u1，…，up，这由对XTX的谱分解完成，即　　XTX=U∧UT，（2.3）　　其中U=（u1，…，up）　　（5）求PCA对总变差的累计贡献率。根据累计应献率（85%）来确定PCA个数。　　2.2聚类分析　　聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。其中系统聚类法作为聚类分析使用最多的方法，在介绍该方法前，先介绍一个与聚类分析有关的概念：相似系数，其定义如下：　　定义3.1 设p个变量x1，…xp，的n组数据：xt1，…xtp，t=1，2，…，n。这p个变量的 n个观测记录为Rn中的p个向量x（1），…，x（p），写成矩阵形式：　　X= （xij）=（x（1），…x（p））=（x1，…xn）（2.4）　　用（2.5）　　来描述变量xi和xj间的相关性，并称其为xi，xj的相关系数，其中xi=xti，xj=xtj。　　本文将相似系数作为归类指标，则该系统聚类方法的基本步骤如下：　　第一步：将每个变量视为一个类，计算类之间的归类指标，然将衡量指标将最接近的两个变量归为一类，其余不变。　　第二步：为了将新的类在归类，需要确定新类的归类指标和归类方法。一般采用综合变量法，该方法将新归并的类中的变量用加权平均