- 3
- 0
- 约3.17千字
- 约 8页
- 2016-05-09 发布于湖北
- 举报
实验项目五 聚类分析
实验内容、目标及要求
实验内容
聚类分析是一种研究事物分类的方法,其目的是把分类对象按一定的规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。通俗的讲,聚类分析法是用来对资料做简化的工作及分类,也就是把相似的个体(观察量)归于一群。car_sales.sav(SPSS/tutorial/sample)中选择数据进行分析。
(二)实验目标
SPSS软件中系统聚类法和K均值聚类的计算机操作及结果分析。
(三)实验要求
要求学生能熟练应用计算机软件进行聚类分析,并对结果进行分析,培养实际应用能力。
二、实验准备
(一)运行环境说明
电脑操作系统为Windows XP,所需软件为SPSS 16.0。
(二)基础数据设置说明
将数据正确导入SPSS,设置相应的变量值。
三、实验基本操作流程及说明
(一)系统界面及说明
同实验一。
(二)操作步骤
1. 选择菜单项Analyze→Classify→Hierachical Cluster,打开Hierachical Cluster Analysis对话框,如图 5-5。将原始变量Price in thousands到Fuel efficiency移入Variables列表框框中,将标志变量Model移入Label Case by列表框框中。
图5-1 Hierachical Cluster Analysis对话框
在Cluster栏中选择Cases单选按钮,对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
2. 点击Plots按钮,打开Plots子对话框,如图5-5。设置结果输出窗口中给出的聚类分析统计图。Dendrogram为聚类树形图,Icicle为冰柱图。
图5-2 Plots子对话框
这里我们选中Dendrogram复选框和Icicle栏中的None单选按钮,只输出比较常用的聚类树形图,而不给出冰柱图。
3. 点击Method按钮,打开Method子对话框,如图5-6,设置系统聚类的方法选项。
图5-3 Method子对话框
Cluster Method下拉列表用于指定类与类之间距离的测度方法,具体选项的含义参见教材。
Measure栏用于设置不同数据类型下的个体与个体之间距离的测度方法,其中,Interval中的方法适用于连续型变量,Counts中的方法适用于计数变量,Binary中的方法适用于二值变量。
Transform Values选项栏用于当原始数据不是同一数量级别的时候选择对原始数据进行标准化的方法。单选按钮By variable表示针对变量进行标准化,适用于Q型聚类;By case表示针对观测进行标准化,适用于R型聚类。
这里我们选择最为常用的Z分数标准化法对原始数据进行标准化,其余选项均保持默认。
4. 点击Save按钮,打开 Save New Variables子对话框,指定保存在数据文件中的用于表明聚类结果的新变量。
None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果。
5. 在主对话框中点击OK按钮,运行系统聚类过程,结果如表5-1和图5-7所示。
表5-1 聚类过程表
图5-4 树状图
B.K-meanstelco_extra.sav
1. 选择菜单项Analyze→Classify→K-Means Cluster,打开K-Means Cluster Analysis对话框,如图 5-8。将原始变量x1—x3移入Variables列表框框中,将标志变量Region移入Label Case by列表框框中。
图5-5 K-Means Cluster Analysis对话框
在Method选项栏中选择Iterate classify单选项,使用K-means算法不断计算新的类中心,并替换旧的类中心;若选择Classify only,则根据初始类中心进行聚类,在聚类过程中不改变类中心。
在Number of Cluster后面的输入框中输入想要把样品聚成的类数,这里我们输入3,即将电信客户分为3类。
至于Centers按钮,则用于设置迭代的初始类中心。如果不用手工设置,则系统会自动设置初始类中心,这里我们不作设置。
2. 点击Iterate按钮,打开Iterate子对话框,对迭代参数进行设置。
图5-6 Ite
您可能关注的文档
- 居民健康素养知识418题介绍.doc
- 居民生态文明行为影响因素-调查2介绍.doc
- 居民生态文明行为影响因素-调查介绍.doc
- 居民收入增长和经济发展同步问题研究介绍.doc
- 居民消费倾向的介绍.doc
- 居配设计说明书介绍.doc
- 居住区规划原理介绍.doc
- 琚宾的公益设计:改造空间,改变生活介绍.doc
- 鞠老师人员测评理论复习111介绍.doc
- 局部应力修改介绍.doc
- 河北省石家庄市2026届高三11月期中教学质量摸底检测语文试题含答案.doc
- 山东省济宁市2026届高三上学期期中质量检测语文试题含答案.doc
- 江西省宜春市2026届高三上学期一轮诊断考试语文试题含答案.doc
- 北京市丰台区2026届高三上学期期末语文试题及答案.doc
- 北京市东城区2026届高三上学期期末语文试题及答案.doc
- 2025年四川省攀枝花市中考物理试题(含答案解析).doc
- 浙江省宁波市2026届高三第一学期11月高考模拟考试语文试题含答案.doc
- 山东省菏泽市2026届高三上学期期中考试语文试题含答案.doc
- 上海市闵行区2026届高三一模语文试题及答案.doc
- 上海市长宁区2026届高三一模语文试题及答案.doc
最近下载
- 广东省深圳市宝安区2024-2025学年三年级上学期期末科学试卷.docx VIP
- 2025年商务英语(BEC)中级考试真题卷:商务英语阅读理解提高策略与真题剖析.docx VIP
- ‘十五五’卫生健康事业高质量发展规划及医院高质量发展实施方案.docx
- 《苏武传》课件35张.pptx VIP
- 1999年及其以前批准转业的军队干部住房保障办法.doc VIP
- 关于做好新型冠状病毒感染肺炎疫情防控期间稳定劳动关系支持企业复工复产的实施意见.doc VIP
- 高考数学解三角形专题.pdf VIP
- 2025年体育行业青少年体育培训报告.docx
- EQC-1137-2007-chs 电镀锌层及镀后表面处理.pdf
- 自动化集装箱码头管理.docx VIP
原创力文档

文档评论(0)