第六聚类分析1.pptxVIP

下载本文档

1
0
约3.27千字
约 21页
2018-07-14 发布于上海
举报
版权申诉

第六聚类分析1.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第六聚类分析1

聚类分析是依据样本间关联的量度标准将其自动分成几个群组，且使同一群组内的样本相似，而属于不同群组的样本相异的一组方法。聚类分析的一个附加的结果是对每个类的综合描述，这种结果对于更进一步深入分析数据集的特征是尤其重要。 6.1 聚类概念聚类的样本是用度量指标的一个向量表示,或更正式的说法是,用多维空间的一个点来表示。同类中的样本比属于不同类的样本彼此具有更高的相似性。聚类方法尤其适合用来探讨样本间的相互关联关系从而对一个样本结构做一个初步的评价。人们能够对一维、二维或三维的样本进行聚类分析，但是大多数现实问题涉及到更高维的聚类。例如：下表是一个简单聚类例子，包含了9个顾客的信息，分三类，两个特征值(数量,价格) 类1:购少量高价商品，类2：购大量的高价品，类3：购小量的低价商品。聚类是一个非常难的问题,因为在一个n维的样本空间数据可以以不同的形状和大小揭示类。下面基于欧几里得二维空间的聚类过程的一个示例。上面数据可以分类三个类也可以分为四个类，类的数量的任意性是聚类过程中的主要问题。另一方面，上面的类是能够直接观察到的。对于高维欧几里得空间里的一组点，就无法从视觉上观察到。聚类分析输入可以用一组有序数对(X,s)或(X,d)表示。聚类系统的输出是一个分区∧={G1,G2,…,GN}，其中Gk(k=1,…,N)是X的子集。 G1,G2,…,GN称为类，每一个类用一些特征描述。聚类结果是类和它的特征或描述。规范化的描述有以下几种图式： 1.通过它们的重心或类中关系远的（边界）点表示n维空间的一类点。 2. 使用聚类树中节点图形化地表示一个类。 3.使用样本属性的逻辑表达式表示类。现有的用于数据挖掘的聚类方法分为四类:分割法,分层法,密度法和网格法。分割聚类法一般是通过优化一个评价函数把数据分割成K个部分，主要有两种方法：K-means聚类法和K-medoid聚类法.K-means法在处理海量数据库方面很有效，特别是对数值属性处理。K-prototypes是结合K-means和K-modiod的优点，可以同时处理数值与符号属性和聚类法分层聚类法是由不同层次的分割聚类组成，层次之间的分割具有嵌套关系。分层聚类法不必事先输入聚类块数K，基于模糊相似关系的模糊聚类属于这种聚类法。密度聚类法是利用数据密度函数进行聚类。网格聚法利用空间量子化方法把数据分到有限个单元进行聚类，这种方法效率高，与数据大小无关，仅与单元数有关。值得注意的是：没有哪一种聚类技术对揭示多维数据集中的构造种类是普遍适用的。使用者对问题的理解和与其相应的数据类型是选择合适方法的最好标准，大多数聚类算法基于下面两种常见方法：　1.层次聚类 2.迭代的平方误差分区聚类层次方法按群组的嵌套顺序组织数据，以树状图或树形结构来表示。平方误差分区算法试图得到一个使类内分散最小而类间分散最大的分区。它是非层次的。 6.2 相似度的度量为了规范化相似度的度量标准，我们有如下约定：在样本空间Ｘ的聚类算法中，用一个数据向量表示一个样本x(或特征向量，观察值)。假定每一个样本xi∈Ｘ,i=1,…,n都用向量xi={xi1,xi2,…xim}来表示，m的值是样本的维数（特征），n是一个样本数。如果某个样本xi的单个分量xij是一个特征或属性值，那么每一组成xij，j=1,..,m是一个域Pj。则每一个特征的值的取值范围。 Pj可以是二元类型，整型，实数，或某一特征的一组分类。例如Pj是一组颜色： Pj ={白,黑,红,蓝,绿}。由于相似度是定义一个聚类的基础，因此在聚类分析中有必要建立同一特征空间中的两种模式的相似度的度量标准。而且聚类分析过程的质量取决于对度量标准的选择。一般地，不是计算两个样本间的相似度，而是用特征空间中的距离作为度量标准计算两个样本间的相异度。聚类中的“相似度”意味着当x和x’是两个相似样本时，s(x,x’)的取值是很大的，当x和x’不相似时，s(x,x’)的取值是很小的。而且，相似度的度量标准S具有自反性：　　　　s(x.x’)=s(x.x’) 对于大多数聚类方法，相似度的度量可以标准化为：　　 0≤s(x,x’)≤1 相异度的度量标准用d(x,x’)来表示。通常称相异度为距离。当x和x’相似时,d很小，当x和x’不相似时，d很大。而且d0，d(x,x’)=d(x’,x)，d(x,x’’)≤d(x,x’)+d(x’,x’’) 距离度量标准的算式： 1.欧氏距离： 2.L1距离或城区距离： 3.明考斯基距离：显然,p=1时(3)与(2)距离一样;p=2时(3)与(1)距离一样。欧氏 n维空间模型不仅给出了欧氏距离，还给出另外的相似度度量标准，余弦相关就

您可能关注的文档

文档评论（0）

peili2018 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第六聚类分析1.pptxVIP