第十四章 聚类分析.pptxVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Clusteringmethond聚类方法汇报人:李婧霞宋梦晗

目录CONTENTS01介绍02相似度或距离03类或簇04类与类之间的距离05层次聚类

01介绍聚类分析是将个体或对象分类,使得同一类对象之间的相似性比与其他类的对象的相似性更强。是一种无监督学习,是在缺乏标签的前提下的一种分类模型。

添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容聚类分析Clusteranalysis目的:聚类分析是把相似的研究对象归成类,通过得到的类或簇来发现数据的特点或对数据进行处理。分类:1.根据分类对象的不同Q型聚类分析:对样本进行分类处理R型聚类分析:对变量进行分类处理2.根据聚类方法的不同硬聚类:一个样本只能属于一个类,或类的交集为空集。软聚类:一个样本可以属于很多个类,属于每个类的概率是不同的。

聚类分析的应用用户分割将用户分到不同的组别中,并根据簇的特性而推送不同的广告。欺诈检测发现正常与异常的用户数据,识别其中的欺诈行为。

02相似度或距离聚类中,可以将样本集合看作是向量空间中点的集合,以该空间的距离来表示样本之间的相似度。

添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容相似度或距离Similarityordistance闵科夫斯基距离(闵氏距离):对于连续m维空间中的两点,和其闵科夫斯基距离为:当时称为欧式距离,即当时称为曼哈顿距离,即当时称为切比雪夫距离,即

添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容闵科夫斯基距离Minkowskidistance关系:闵氏距离越大相似度越小,距离越小相似度越大。缺点:1、“距离”的大小与指标的单位有关2、闵氏距离没有考虑变量间的相关关系3、没有考虑各个变量的分布(期望、方差等)可能是不同的

添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容马哈拉诺比斯距离Mahalanobisdistance马氏距离:(考虑各个分量之间的相关性并与各个分量的尺度无关)设和是从均值向量为,协方差阵为的总体G中抽取的两个样本,定义和之间的马氏距离为:定义与总体G的马氏距离为:当为单位矩阵时,马氏距离就是欧式距离,所以马氏距离是欧式距离的推广。

马氏距离的几何意义将变量按照主成分进行旋转,让维度间相互独立,然后进行标准化,让维度同分布。由主成分分析可知,由于主成分就是特征向量方向,每个方向的方差就是对应的特征值,所以只需要按照特征向量的方向旋转,然后缩放特征值倍。

添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容夹角余弦Anglecosine夹角余弦越接近于1,表示样本越相似;越接近于0,表示样本越不相似。

余弦相似度的特点余弦相似度通常用于正空间,因此给出的值为0到1之间仅仅与向量方向有关,与向量长度无关。对任何维度的向量空间都适用,而且最常用于高维正空间。余弦相似度的应用在信息检索中,每个词被赋予不同的维度,而一个文档由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率,余弦相似度因此可以给出两篇文档在其主题方面的相似度。另外,它通常用于文本挖掘中的文件比较;在数据挖掘领域中,会用到它来度量集群内部的凝聚力。

添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容相关系数correlationcoefficient其中相关系数的绝对值越接近于1,表示样本越相似;越接近于0,表示样本越不相似。

添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容从距离的角度看

您可能关注的文档

文档评论(0)

xm1640396464 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档