网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘-聚类分析.pptVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2数据结构和类型簇间距离度量距离函数都是关于两个样本的距离刻画,然而在聚类应用中,最基本的方法是计算类间的距离。设有两个类Ca和Cb,它们分别有m和h个元素,它们的中心分别为ra和rb。设元素x∈Ca,y∈Cb,这两个元素间的距离通常通过类间距离来刻画,记为D(Ca,Cb)。最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。2数据结构和类型簇间距离度量最长距离法:定义两个类中最远的两个元素间的距离为类间距离。中心法:定义两类的两个中心间的距离为类间距离。首先定义类中心,而后给出类间距离。假如Ci是一个聚类,x是Ci内的一个数据点,即x∈Ci,那么类中心定义为:其中,nk是第k个聚类中的点数。则Ca和Cb的类间距离:ra和rb是类Ca和Cb的中心点,d是某种形式的距离公式。2数据结构和类型簇间距离度量类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:离差平方和:离差平方和用到了类直径的概念:类的直径反映了类中各元素间的差异,可定义为类中各元素至类中心的欧氏距离之和,其量纲为距离的平方。根据上式得到两类Ca和Cb的直径分别为ra和rb,类Ca+b=Ca?Cb的直径为ra+b,则可定义类间距离的平方为:2数据结构和类型评价函数误差平方和准则其中,E是所有对象平均误差的总和,x是给定的对象,是Ci的平均值。该准则函数试图使生成的结果簇尽可能地紧凑和独立。2数据结构和类型数据类型(1)二元变量属性的取值仅为0或1,0表示该变量不会出现,1表示该变量出现。二元变量相异度计算设q为对象i与j都取1的变量的个数设r为对象i取1而对象j取0的变量的个数设s为对象i取0而对象j取1的变量的个数设t为对象i与j都取0的变量的个数对象i与j的相异度定义为

2数据结构和类型数据类型

(2)分类变量属性的取值为多个状态。比如地图颜色是个分类变量,取值可以为:红色,黄色,绿色,粉色,蓝色。1表示该变量出现。分类变量相异度计算设m为对象i与j匹配的数目(即它们取相同的状态值),p为全部变量的数目,对象i与j的相异度定义为2数据结构和类型数据类型

(3)序数变量属性的取值为多个状态,这些状态值有一定的强度层次,可以排序。序数变量相异度计算首先,将变量f的取值状态替换为它的秩(1,2,3,...,M),即序数变量的排序数。其次,将秩的值域映射到区间[0,1],这可以通过以下变换实现其中Mf为f的取值状态数目。2数据结构和类型数据类型

(4)比例标度变量属性的取值随时间的增长,呈指数增长的趋势。比如状态的取值近视遵循下列公式其中A与B为正的常数,而t为时间。序数变量相异度计算把比例标度度量当做区间标度变量处理把比例标度度量当做序数变量处理对比例标度度量做对数变换

2数据结构和类型数据类型

(5)混合类型变量实际的应用中,一个数据库可以包含多种类型的变量,比如区间标度变量,对称二元,非对称二元,分类,序数,或者比例标度的。混合变量相异度计算其中为单个类型变量定义的距离;p为变量的个数。3聚类分析方法的分类聚类方法分类聚类分析技术通常可分为五大类: 基于划分的方法 基于层次的方法 基于密度的方法 基于网格的方法 基于模型的方法3聚类分析方法的分类基于划分的方法划分方法的思想是,将给定待挖掘数据集中的数据对象划分成K(k≤N,N代表数据集中对象数目),每一组表示一个聚类的簇。并且要满足任何一个数据对象仅可以属于一个聚类,每个聚类中至少具有一个数据对象。典型代表:K-medoids算法和K-means算法等。3聚类

文档评论(0)

bookst + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档