我国31省市教育水平的聚类分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
我国31省市教育水平的聚类分析 摘要教育实力是一国综合国力的重要组成部分。充分了解我国各 地区的教育水平具有重大意义。本文建了一个含有9个一级指标,31个二 级指标的评级指标体系,同时应用聚类方法和基于PCA的聚类方法对31 各省市的教育水平进行聚类分析,并通过比较两种方法得到的结果,表明 基于PCA的聚类方法是可行的。 关键词聚类分析PCA分析教育水平R软件 屮图分类号:G649. 2文献标识码:A 0引言 教育实力是一国综合国力的重要组成部分。教育竞争力在捉升一国综 合国力屮有着特殊的地位和作用,直接关系到科技竞争力和企业竞争力, 从整体上影响到国家的综合竞争力。认清我国教育竞争力在国际上的位 置,对于国家科学地制定教育发展战略,实现从人U大国迈向人力资源强 国的转变,推进教育现代化进程具有十分重要的意义。 目前我国教育水〒虽然得到了长足的发展,但依旧存在问题。因此通 过对31各省市的教育水平的聚类分析,能够更加清楚的认识各地区以及 我国的教育水平现状,了解哪些地区之间相似,哪些差异较大,并以此为 依裾,制定区域联合政策来提高区域教育水平。所以对区域教育水平的分 析具有重要意义。同时通过将基于PCA的聚类方法与传统聚类分析方法进 行比较,来说明基于PCA的聚类方法的可靠性。 1建立各省市教育水平指标体系 教育水平是一个综合、系统的概念,因此构建一个层次分明、结构完 整的评价指标体系是必须的。指标体系的合理与否,决定了对教育水平评 价的准确程度。因此,构建一个合理的指标评价体系应该遵循以下6个基 本原则:相关性原则、全面性原则、经济性原则、重要性原则、可操作性 原则、相对稳定性原则。 木文在6个基木原则的基础上构建含有9个一级指标和31个二级指 标的省市教育水平评价指标体系。表1列出了省市教育水平评价指标体系 框架。 2本文研究涉及的方法:PCA和聚类分析 本文在对各省市教育水平的评价时,首先采用聚类分析对31个二级 指标进行分析。但因为教育水平的评价需要的指标数量较多,计算量较大, 所以第二种方法先采用PCA,将具有相关性的多个指标,转化为几个相互 独立的综合指标(PC),再对各省市的教育水平进行聚类分析。这样做的 好处就是通过PCA在没有损失太多信息条件下,减少了指标个数从而达到 减小计算的复杂性。 下面对木文所涉及的PCA、聚类分析进行介绍。 2. 1 PCA PCA是利用降维的思想:设研宄问题有P个指标,这P个指标构成的 P维随机向量x= (xl,x2,…,xp) ’。对x作正交变换:y=U’x,其屮U’ 为正交阵,y的各分量是不相关的,我们从y的主分量中选择主要成分, 剔除对所研宂问题影响微弱的部分,通过对Y的主分量的重点分析,达到 对原始变量进行分析的目的。PCA分析法的基本步骤如下: 确定分析指标,收集数据。 确定指标矩阵。 设高校Ai (i=l, 2,…,n)在指标Sj (j=l, 2,…,p)下取值为 xij得到指标矩阵: X= (x) (2.1) 由于各指标反映的数量角度不同,且各指标的量纲也不同,所 以,要对数据进行中心标准化,即 X-H1XD-1 (2.2) 其屮 H=I?HallT, D=diag{| |HX (1) | ||HX (p) ||}变换后的 数据阵仍记为X。 求XTX的特征值?%(11彡…?%dp彡0和对应的标准特征向量 ul,…,up,这由对XTX的谱分解完成,即 XTX二UAUT, (2. 3) 其屮 U= (ul,…,up) 求PCA对总变差的累计贡献率。根据累计应献率(〉85%)来确 定PCA个数。 2.2聚类分析 聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成 的多个类的分析过程。其屮系统聚类法作为聚类分析使用最多的方法,在 介绍该方法前,先介绍一个与聚类分析有关的概念:相似系数,其定义如 T: 定义3. 1设p个变量xl,…xp,的n组数据:xtl,…xtp,t=l,2,…, n。这p个变量的n个观测记录为Rn中的p个向量x (1),…,x (p), 写成矩阵形式: X= (xij) = (x (1), ...x (p)) = (xl, ...xn) ’ (2. 4) 用(2.5) 来描述变量xi和xj间的相关性,并称其为xi, xj的相关系数,其 中 xi=xti, xj=xtj。 本文将相似系数作为归类指标,则该系统聚类方法的基本步骤如下: 第一步:将每个变量视为一个类,计算类之间的归类指标,然将衡量 指标将最接近的两个变量归为一类,其余不变。 第二步:为了将新的类在归类,需要确定新类的归类指标和归类方法。 一般采用综合变量法,该方法将新归并的类巾的变量用加权平均的方法综 合成一个变量,并视力新并类的代表,然后以各类屮的代表变量计算两两 的相似系数,并把这

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档