案例17(张炳江) 欧氏距离.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用欧氏(Euclid)距离进行类别数据的分类计算 适用章节:第一章第一节的集合和第七章第一节的向量、空间两点的距离运算 (高等教育出 版社 《高等数学-微积分》) 一、问题提出: 在人口调查时,需要分析人种、年龄、性别、职业和收入等许多特性。现在,关于性 别 (1,2 ),职业 (1,2,3 ),收入 (1,2,3 )对中国人口进行分类,大约有18 个种群 (集 落)。遵循一定的定义,具有p 个特性的样品对于其类似性进行分析时,可以分成几个聚类。 将这种类似的东西分成集合的方法称作聚类分析。聚类分析的特征是将一些数据按其特性分 成若干个组。在生物学上,通常按照种、属、科、目、纲、门进行分类。这种聚类分析应用 非常广泛,即使是在数据挖掘中,依据一定目的按照特性对市场进行分类就会成为市场细化 问题。对于大众消费者群体,将其同类进行聚类分析可以达到不同的商业贩卖目的。 具有P 个特性的数据集团分成m 个聚类,有必要确定分类基准。最普通的就是使用距 离和类似度,但这必须适合于聚类分析的目的。 二、涉及知识点 集合的定义、向量的定义,距离的定义和空间两点的距离运算。包括: (1) 类似度、距离的定义 类似度是相似程度,距离表示不相似的度量。测量值是身高那样的变量、表示大中小程 度的排位数、红(1)黑(2) 白(3)那样的没有大小关系的非排位数,(yes, no)(是,否)那样的0-1 型变量,即4 个种类的数值。 记是样本点集合。距离的定义是:设d (,) 是R  的一个函数,它满足以下 条件: (a) d (x, y) 0, x, y , (b) d (x, y) 0, 当且仅当x y , (c) d (x, y) d ( y, x), x, y , (d ) d (x, y) d (x, z) d (z, y), x, y, z 。 (2) 欧氏(Euclid)距离 p 2 1/ 2 d (x, y) [(x y ) ] 2 i i i 1 三、实现的过程 1.首先将问题进行标量化,即将数据转化为可以度量的数值。 2 .利用欧氏(Euclid)距离计算任意两个样本点的距离。 3 .将距离最近的两个组作为一个集合,同时遵循小标号优先的原则,将大标号去掉。 4 .重复第3 个步骤,直到最后的一个样本比较完毕。 5 .表示聚类树形图,分析结果。 四、案例分析 例题 对表1 中的两组数据进行类别分析 表1 Step 1: 使用最短距离法[min{d | i C , j C }]进行计算求 ij l k x 1 x2 解。计算6 点之间的距离,其计算公式如下: p 1 -1.51 0.86 p p2 4.54 0.12 2 1/ 2

文档评论(0)

annylsq + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档