聚类分析 数据挖掘课程设计.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘课程设计 一.实验目的 1) 请根据所给的天津各区县经济和教育数据分别做聚类分析,并给出你的结论分析。 2) 聚类分析结果时候与你的直观感受相符合?如果不符,请解释并给出解决方法。 二.实验过程及结果分析 本实验采用聚类分析来对各个区县进行分类,这里我使用SPSS 20来进行聚类分析。 输入各区县经济数据如下图: 使用SPSS 进行K均值聚类分析,分为六类,得到如下结果: 初始聚类中心 聚类 1 2 3 4 5 6 总产值 464.13 215.47 290.69 540.14 5030.11 114.68 最终聚类中心 聚类 1 2 3 4 5 6 总产值 464.13 214.67 321.07 521.51 5030.11 114.68 每个聚类中的案例数 聚类 1 1.000 2 4.000 3 5.000 4 4.000 5 1.000 6 1.000 有效 16.000 缺失 .000 上图中的第三列(QCL_1)即为分类情况,说明如下: 北辰区分为一类,标记为1;河东区、宝坻区、宁河县、蓟县分为一类,标记为2;南开区、河北区、津南区、武清区、静海县分为一类,标记为3;和平区、河西区、东丽区、西青区分为一类,标记为4;滨海新区为一类,标记为5;红桥区分为一类,标记为6 。 结果分析: 分类结果从整体来看还是比较合理的。滨海新区这一地区产值非常高,毫无疑问是单独的一类;红桥区产值最低,也分为一类,这个与我的直观感受不太相符,作为天津市市内六区之一的红桥区,产值最低,分为一类,我觉得很不可思议,问题可能是数据量不够大,或者说评价指标太少,这里我们只有一个评价指标(总产值),导致结果具有偶然性,适当增加评价指标应该可以增加结果的准确性。 输入各区县教育数据(中学数量和中学在校生以及教师数量)如下图: 使用SPSS 对这三个变量进行K均值聚类分析,分为六类,得到如下结果: 初始聚类中心 聚类 1 2 3 4 5 6 教育_中学数量 83 65 48 26 51 13 中学教师数 5585 4454 3917 2703 2691 1269 在校生人数 60484 52563 45156 25436 36912 13099 最终聚类中心 聚类 1 2 3 4 5 6 教育_中学数量 83 65 48 26 51 18 中学教师数 5585 4454 4010 2232 2691 1285 在校生人数 60484 52563 44844 23540 36912 15217 每个聚类中的案例数 聚类 1 1.000 2 1.000 3 2.000 4 6.000 5 1.000 6 5.000 有效 16.000 缺失 1.000 上图中的第五列(QCL_1)即为分类情况,说明如下: 滨海新区分为一类,标记为1;蓟县分为一类,标记为2;武清区、宝坻区分为一类,标记为3;和平区、河东区、河西区、南开区、河北区、宁河县分为一类,标记为4;静海县分为一类,标记为5;红桥区、东丽区、西青区、津南区、北辰区分为一类,标记为6 。 结果分析: 分类结果从整体来看还是比较合理的。滨海新区这一地区教育资源非常雄厚,应该与这个地方的经济总产值有很大的关系。另外,静海县和蓟县,这两个地方的学校数量和学生数量及教师数量都很多,资源也比较雄厚,这与我的直观感受不太相符,他们并不是天津市市内六区。原因可能是这两个地方对教育的重视程度高于其他县市。我们这里的评价指标有三个,还算比较充分。原因应该是区县政府对教育的重视程度不同。不过有个问题,学校数量多并不能表示教育水平高,教师数量多也不一定能代表教师质量高。这里给出的数据只有数量,没有具体的能够反应质量的数据,因此结果存在一定的偏差。

文档评论(0)

139****2545 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档