网站大量收购独家精品文档,联系QQ:2885784924

第七章节 聚类分析.ppt

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章节 聚类分析

第七章 聚类分析 一、引言 二、直观解释与算法 三、案例8 四、因子与聚类比较分析 8.1 引 言 在使事件条理化方面一个基本科学问题是分类,我们仍然来看一个两维数据。 社会学家可以将他们调查的一群人的数据归为(7.1.1),动物学家可以将一些生物进化过程或遗传知识的记录归为(7.1.1),对某一专业的人来说,他们进行分类当然应用他们所学的知识。作为统计工人者,我们并不把外来的约束用于分类,当然结果的实际解决中必需考虑它。我们现在仅从二维表来考虑:即给定N个观测值,每个观测值有M个指标。分类包括两方面的内容: (1)对样本(观测值)进行聚类 例:社会学家对N个人进行调查其指标为:收入,受教育程度,宗教信仰等,他们想看看这N个人大致可以分为几类,从而推断整个社会的民众可以分为几类。 (2)对指标进行聚类 例:天气预报的资料其指标非常多,多达成千上万,显然其中不少指标是反映天气的某种属性,如反映大气流动的指标:一千米上空流速,两千升上空流速等。我们的目的是看看众多的指标可以分为几类。 我们是否有什么根据,可以将它们聚成若干个可定义的类,而对应的备选假设为它们是一个不能分类的集合。 分类与聚类分析中,我们要学会从具体情况出发来考虑一般的问题,即用不同的方法建立不同的模型。这也是分类与聚类分析内容特别丰富的原因。 实例:表(8.1.1)给出了48个应征者在15个方面所得分数,这15个方面为: (1)申请书形式 (2)外貌 (3)学术能力 (4)讨人喜欢 (5)自信程度 (6)精明 (7)诚实 (8)推销能力 (9)经验 (10)积极性 (11)报负 (12)理解能力 (13)潜力 (14)交际能力 (15)适应能力 我们关心的是如何对指标进行聚类,因为描述人的特征无非是外部特征,内在实质等几个指标。 现在我们对变量进行聚类,对变量进行聚类,可以想象成每一个变量是48维空间中的一个点,我们把靠的很近的变量归为一类,点与点很近用数学或统计的语言来说就是变量的相关程度很大,因此我们用相关系数作为变量间的距离。计算数据的相关矩阵得表(8.1.2)。 表8.1.2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 --──────────────────────────────────── 1 1 2 .24 1 3 .04 .12 1 4 .31 .38 .00 1 5 .09 .43 .00 .30 1 6 .23 .37 .08 .48 .81 1 7 -.11 .35 -.03 .65 .41 .36 1 8 .27 .48 .05 .47 .82 .83 .23 1 9 .55 .14 .27 .14 .02 .15 -.16 .23 1 10 .35 .34 .09 .39 .70 .70 .28 .81 .33 1 11 .28 .55 .04 .35 .84 .76 .21 .86 .20 .78 1 12 .34 .51 .20 .50 .72 .88 .39 .77 .30 .71 .78 1 13 .37 .50 .29 .60 .67 .78 .41 .73 .34 .79 .77 .87 1 14 .47 .28 -.32 .69 .48 .53 .45 .55 .21 .61 .55 .55 .54 1 15 .59 .38 .14 .33 .25 .42 .03 .55 .69 .62 .43 .53 .57 .40

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档