- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Clusteringmethond聚类方法汇报人:李婧霞宋梦晗
目录CONTENTS01介绍02相似度或距离03类或簇04类与类之间的距离05层次聚类
01介绍聚类分析是将个体或对象分类,使得同一类对象之间的相似性比与其他类的对象的相似性更强。是一种无监督学习,是在缺乏标签的前提下的一种分类模型。
添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容聚类分析Clusteranalysis目的:聚类分析是把相似的研究对象归成类,通过得到的类或簇来发现数据的特点或对数据进行处理。分类:1.根据分类对象的不同Q型聚类分析:对样本进行分类处理R型聚类分析:对变量进行分类处理2.根据聚类方法的不同硬聚类:一个样本只能属于一个类,或类的交集为空集。软聚类:一个样本可以属于很多个类,属于每个类的概率是不同的。
聚类分析的应用用户分割将用户分到不同的组别中,并根据簇的特性而推送不同的广告。欺诈检测发现正常与异常的用户数据,识别其中的欺诈行为。
02相似度或距离聚类中,可以将样本集合看作是向量空间中点的集合,以该空间的距离来表示样本之间的相似度。
添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容相似度或距离Similarityordistance闵科夫斯基距离(闵氏距离):对于连续m维空间中的两点,和其闵科夫斯基距离为:当时称为欧式距离,即当时称为曼哈顿距离,即当时称为切比雪夫距离,即
添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容闵科夫斯基距离Minkowskidistance关系:闵氏距离越大相似度越小,距离越小相似度越大。缺点:1、“距离”的大小与指标的单位有关2、闵氏距离没有考虑变量间的相关关系3、没有考虑各个变量的分布(期望、方差等)可能是不同的
添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容马哈拉诺比斯距离Mahalanobisdistance马氏距离:(考虑各个分量之间的相关性并与各个分量的尺度无关)设和是从均值向量为,协方差阵为的总体G中抽取的两个样本,定义和之间的马氏距离为:定义与总体G的马氏距离为:当为单位矩阵时,马氏距离就是欧式距离,所以马氏距离是欧式距离的推广。
马氏距离的几何意义将变量按照主成分进行旋转,让维度间相互独立,然后进行标准化,让维度同分布。由主成分分析可知,由于主成分就是特征向量方向,每个方向的方差就是对应的特征值,所以只需要按照特征向量的方向旋转,然后缩放特征值倍。
添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容夹角余弦Anglecosine夹角余弦越接近于1,表示样本越相似;越接近于0,表示样本越不相似。
余弦相似度的特点余弦相似度通常用于正空间,因此给出的值为0到1之间仅仅与向量方向有关,与向量长度无关。对任何维度的向量空间都适用,而且最常用于高维正空间。余弦相似度的应用在信息检索中,每个词被赋予不同的维度,而一个文档由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率,余弦相似度因此可以给出两篇文档在其主题方面的相似度。另外,它通常用于文本挖掘中的文件比较;在数据挖掘领域中,会用到它来度量集群内部的凝聚力。
添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容相关系数correlationcoefficient其中相关系数的绝对值越接近于1,表示样本越相似;越接近于0,表示样本越不相似。
添加标题添加你的详细文本内容添加你的详细文本内容添加你的详细文本内容添加你的详细文内容从距离的角度看
您可能关注的文档
- 四川省达州市渠县有庆中学2023-2024学年九年级上学期期中数学模拟测试题【含答案】.docx
- 2021-2022学年陕西省延安市黄陵县人教版三年级上册期末质量检测数学试卷【含答案】.docx
- 模拟试题一会计分录.doc
- (常考题)北师大版高中数学必修四第一章《三角函数》测试题(包含答案解析)(2).doc
- 安全工程师《煤矿安全》复习题集(第3731篇).docx
- 2021-2022学年河北省邢台市某地区冀教版四年级上册期末考试数学试卷(A卷)【含答案】.docx
- 单元二--简谐波-波动方程.doc
- 小红书的生态为什么适合推广.docx
- 吉林省长春市东北师范大学附属中学2023-2024学年高二上学期期中考试数学试题.docx
- 2022-2023学年湖北省黄石市大冶市人教PEP版四年级上册期末素质教育目标检测英语试卷.docx
- 广东省深圳市龙岗区德琳学校初中部2022-2023学年七年级上学期期中考试英语试题(原卷版+解析).docx
- 广东省珠海市第四中学、立才学校、梅华中学2022-2023学年七年级上学期期中质量检测英语试题(原卷版+解析).docx
- 教科版2024-2025学年六年级科学上册第一单元第4课时《生物细胞》同步练习(含答案).docx
- 牛津沪教版七年级英语上册单元速记•巧练 Unit 7 【单元测试 · 提高卷】.docx
- 牛津沪教版七年级英语上册单元速记•巧练 Unit 5【单元测试 · 基础卷】.docx
- 广东省深圳市南山区太子湾学校2022-2023学年七年级上学期期中考试英语试题(原卷版+解析).docx
- 广东省深圳市南山第二外国语学校(集团)2022-2023学年七年级上学期期中考试英语试题(含听力)(原卷版+解析).docx
- 牛津沪教版七年级英语上册单元速记•巧练 2023-2024学年七年级上学期期末英语全真模拟卷(深圳适用02).docx
- 广东省阳江市江城区2022-2023学年七年级上学期期中考试英语试题(原卷版+解析).docx
- 广东省梅州市梅县区宪梓中学2022-2023学年七年级上学期期中英语试题(原卷版+解析).docx
最近下载
- 【公开课教案】仁爱英语九上Unit4 Topic1 Section A教学设计.pdf
- 南方科技大学科研启动经费管理暂行办法.pdf VIP
- 金融企业会计第三版孟艳琼习题答案.doc
- 师范学院博士人才科研启动经费管理办法.pdf
- 10kV开闭站配电室工程电气监理实施细则.doc
- 二甲医院复审护理需备材料目录.docx VIP
- 八年级家长会优秀课件PPT.ppt
- 2023年历年真题考试:概率论与数理统计(经管类)历年真题汇编(共65题).pdf VIP
- 水建施工管理工作报告(单位工程验收).docx
- Philips 飞利浦Philips Rice Cooker 5000 Series 口感智选 IH 电饭煲 HD4539 21产品支持与说明书 User Manual.pdf
文档评论(0)