.数学建模论文.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
§1 聚类分析 将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程的究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将它们归属于同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点开发目标。 通常,人们可以凭经验和专业知识来实现分类。而聚类分析(cluster analyses)作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。 1.1 相似性度量 1.1.1 样本的相似性度量 要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似 程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p 个 变量描述,则每个样本点可以看成是Rp空间中的一个点。因此,很自然地想到可以用 距离来度量样本点间的相似程度。 记Ω是样本点集,距离d(?,?)是Ω×Ω→ R+的一个函数,满足条件: 1)d(x, y) ≥ 0,x, y∈Ω; 2)d(x, y) = 0当且仅当x = y; 3)d(x, y) = d( y, x),x, y∈Ω; 4)d(x, y) ≤ d(x, z) + d(x, y),x, y, z∈Ω。 这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是Minkowski 距离 当q = 1,2或q →+∞时,则分别得到 绝对值距离 (1) 欧氏距离 (2) Chebyshev 距离 (3) 在 Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交 旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换 后样本点间的距离和变换前完全相同。 值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量 的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计 算距离。在采用Minkowski 距离时, 还应尽可能地避免变量的多重相关性 (multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。 由于Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下 马氏(Mahalanobis)距离 (4) 其中x, y为来自p 维总体Z 的样本观测值,Σ为Z 的协方差矩阵,实际中Σ往往是不 知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。 此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年 来随着数据挖掘研究的深入,这方面的新方法层出不穷。 1.1.2 类与类间的相似性度量 如果有两个样本类 1 G 和2 G ,我们可以用下面的一系列方法度量它们间的距离: 最短距离法(nearest neighbor or single linkage method) (5) 它的直观意义为两个类中最近两点间的距离。 最长距离法(farthest neighbor or complete linkage method) (6) 它的直观意义为两个类中最远两点间的距离。 重心法(centroid method) (7) 其中x, y 分别为1 2 G ,G 类平均法(group average method)

文档评论(0)

183****7361 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档