- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 聚类分析 根据同类事物应具有相近特性,而不同事物在这些特性上差异较大的假定,将所研究的事务进行分类,这种研究方法被称为聚类cluster. 聚类分析是在没有或不用样本所属类别信息的情况下,依据样本集数据的内在结构,在样本间相似性度量的基础上对样本进行分类的方法 聚类分析 分类与聚类的区别 分类:用已知类别的样本训练集来设计分类器(有监督) 聚类:用事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习) 有监督学习是让计算机去学习我们已经建立好的分类系统。 无监督学习看起来非常困难:目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。 主要步骤 1. 数据预处理, 2. 为衡量数据点间的相似度定义一个距离函数, 3. 聚类或分组, 4. 评估输出。 数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。 既然类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域,一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性。 将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类,其他的聚类方法还包括基于密度的聚类,基于模型的聚类,基于网格的聚类。 评估聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量。 聚类分析的应用 商业 将顾客划分成若干个组,以便进一步分析和开展营销活动。 信息检索 万维网包含数以亿计的web网页,搜索引擎可能返回数以千计的页面,可以使用聚类将搜索结果分成若干个簇,每个簇捕获查询的某个特定方面。例如一个电影查询可以返回诸如评论、新片预告、影星和电影院等 对称的二元变量:如果它的两个状态是同等价值的,并有相同的权重,那么该二元变量是对称的,如属性“性别”。在这种条件下,评价两个对象之间相似度的最著名的系数是简单匹配系数,其定义如下: d(i,j)=(a+d)/(a+b+c+d) 如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为1(如,HIV阳性),二将另一种结果编码为0(例如,HIV阴性)。给定两个不对称的二元变量,两个都取值1的情况被认为比两个都取值0的情况更有意义。因此,这样的二元变量经常被认为好像只有一个状态。这种变量的相似度评价系数是Jaccard系数。即d(i,j)=a/(a+b+c) 如下的表包含了属性name,gender,trait-1,trait-2,trait-3和trait-4,这里的name是对象的id, gender是一个对称的属性, 剩余的trait属性是不对称的,描述了希望找到笔友的人的个人特点。假设有一个服务是适合发现合适的笔友。 Name gender trait-1 trait-2 trait-3 trait-4 Kevan M N P P
文档评论(0)