- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用欧氏(Euclid)距离进行类别数据的分类计算
适用章节:第一章第一节的集合和第七章第一节的向量、空间两点的距离运算 (高等教育出
版社 《高等数学-微积分》)
一、问题提出:
在人口调查时,需要分析人种、年龄、性别、职业和收入等许多特性。现在,关于性
别 (1,2 ),职业 (1,2,3 ),收入 (1,2,3 )对中国人口进行分类,大约有18 个种群 (集
落)。遵循一定的定义,具有p 个特性的样品对于其类似性进行分析时,可以分成几个聚类。
将这种类似的东西分成集合的方法称作聚类分析。聚类分析的特征是将一些数据按其特性分
成若干个组。在生物学上,通常按照种、属、科、目、纲、门进行分类。这种聚类分析应用
非常广泛,即使是在数据挖掘中,依据一定目的按照特性对市场进行分类就会成为市场细化
问题。对于大众消费者群体,将其同类进行聚类分析可以达到不同的商业贩卖目的。
具有P 个特性的数据集团分成m 个聚类,有必要确定分类基准。最普通的就是使用距
离和类似度,但这必须适合于聚类分析的目的。
二、涉及知识点
集合的定义、向量的定义,距离的定义和空间两点的距离运算。包括:
(1) 类似度、距离的定义
类似度是相似程度,距离表示不相似的度量。测量值是身高那样的变量、表示大中小程
度的排位数、红(1)黑(2) 白(3)那样的没有大小关系的非排位数,(yes, no)(是,否)那样的0-1
型变量,即4 个种类的数值。
记是样本点集合。距离的定义是:设d (,) 是R 的一个函数,它满足以下
条件:
(a) d (x, y) 0, x, y ,
(b) d (x, y) 0, 当且仅当x y ,
(c) d (x, y) d ( y, x), x, y ,
(d ) d (x, y) d (x, z) d (z, y), x, y, z 。
(2) 欧氏(Euclid)距离
p
2 1/ 2
d (x, y) [(x y ) ]
2 i i
i 1
三、实现的过程
1.首先将问题进行标量化,即将数据转化为可以度量的数值。
2 .利用欧氏(Euclid)距离计算任意两个样本点的距离。
3 .将距离最近的两个组作为一个集合,同时遵循小标号优先的原则,将大标号去掉。
4 .重复第3 个步骤,直到最后的一个样本比较完毕。
5 .表示聚类树形图,分析结果。
四、案例分析
例题 对表1 中的两组数据进行类别分析
表1
Step 1: 使用最短距离法[min{d | i C , j C }]进行计算求
ij l k
x 1 x2
解。计算6 点之间的距离,其计算公式如下: p 1 -1.51 0.86
p p2 4.54 0.12
2 1/ 2
您可能关注的文档
- 管理同学SPSS描述统计分析 实验报告.doc
- 平行与垂直练习.doc
- 土 方 开 挖专项方案.pdf
- 8请示公文格式示例.pdf
- 非连续性文本阅读复习(定).doc
- 诗歌鉴赏之评价古诗的思想内容和作者的观点态度syy2.ppt
- 美国调香师对若干食用香料的评价(220).pdf
- 综合复习五 光的画图.doc
- 阀门合格证汇总表.doc
- 沉降观测方案01442.doc
- 基于随机前沿法剖析我国城市商业银行成本效率的路径与策略.docx
- 虚拟抽水蓄能电站运行控制系统:设计、实现与优化探究.docx
- 探寻甲基化EED蛋白互作蛋白:筛选策略与作用机制解析.docx
- 高分子调控下有机无机钙钛矿单晶形核生长机制与物理性能关联研究.docx
- 液基细胞学与传统涂片细胞学在乳头溢液诊断中的效能比较与临床价值探究.docx
- 猪丁型冠状病毒感染细胞中lncRNA表达谱解析与功能洞察.docx
- 基于多维度分析的行业特色研究型大学教师胜任素质模型构建与验证.docx
- NVP-BHG712:破骨细胞分化抑制的作用及机制解析.docx
- 苦碟子注射液治疗急性缺血性脑卒中火热证的疗效、机制与安全性探究.docx
- 创新生态系统下企业创新驱动新兴产业追赶的机制与路径研究.docx
文档评论(0)