- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
§1 聚类分析
将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程的究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将它们归属于同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点开发目标。
通常,人们可以凭经验和专业知识来实现分类。而聚类分析(cluster analyses)作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。
1.1 相似性度量
1.1.1 样本的相似性度量
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似
程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p 个
变量描述,则每个样本点可以看成是Rp空间中的一个点。因此,很自然地想到可以用
距离来度量样本点间的相似程度。
记Ω是样本点集,距离d(?,?)是Ω×Ω→ R+的一个函数,满足条件:
1)d(x, y) ≥ 0,x, y∈Ω;
2)d(x, y) = 0当且仅当x = y;
3)d(x, y) = d( y, x),x, y∈Ω;
4)d(x, y) ≤ d(x, z) + d(x, y),x, y, z∈Ω。
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是Minkowski 距离
当q = 1,2或q →+∞时,则分别得到
绝对值距离
(1)
欧氏距离
(2)
Chebyshev 距离
(3)
在 Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交
旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换
后样本点间的距离和变换前完全相同。
值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量
的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计
算距离。在采用Minkowski 距离时, 还应尽可能地避免变量的多重相关性
(multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。
由于Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下
马氏(Mahalanobis)距离
(4)
其中x, y为来自p 维总体Z 的样本观测值,Σ为Z 的协方差矩阵,实际中Σ往往是不
知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。
此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年
来随着数据挖掘研究的深入,这方面的新方法层出不穷。
1.1.2 类与类间的相似性度量
如果有两个样本类 1 G 和2 G ,我们可以用下面的一系列方法度量它们间的距离:
最短距离法(nearest neighbor or single linkage method)
(5)
它的直观意义为两个类中最近两点间的距离。
最长距离法(farthest neighbor or complete linkage method)
(6)
它的直观意义为两个类中最远两点间的距离。
重心法(centroid method)
(7)
其中x, y 分别为1 2 G ,G
类平均法(group average method)
1亿VIP精品文档
相关文档
最近下载
- 年产5000吨饼干工厂设计定稿.pdf
- 管道及风管工程创优细部施工.ppt
- Excel表格模板:进销存出入库系统(库存预警).xlsx VIP
- J22J262 被动式超低能耗建筑节能构造(九)(钢丝网架珍珠岩复合保温板)DBJT02-215-2022.docx
- 2023-2024年江苏省数学竞赛初赛试题(原题 详解).pdf VIP
- 顺丰借壳上市案例分析--精品课件.ppt VIP
- JTG 5421-2018 -公路沥青路面养护设计规范.pdf
- 农村初中在学科教学中渗透德育教育的探究结题报告.docx VIP
- 计算机信息管理专业课程教学大纲.pdf VIP
- 新义矿业地测防治水2023年度安全风险管控清单(带探水队).xlsx VIP
文档评论(0)