- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第1页,共26页,星期日,2025年,2月5日聚类分析样品间相似性的度量快速聚类分析及实例目录第2页,共26页,星期日,2025年,2月5日分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。第3页,共26页,星期日,2025年,2月5日基本思想是:通过定义样品或变量间“接近程度”的度量,以此为基础,将“相近”的样品或变量归为一类。聚类分析的介绍第4页,共26页,星期日,2025年,2月5日聚类分析和判别分析是研究分类问题的数据分析方法。聚类分析和判别分析的比较聚类分析判别分析区别进行聚类分析前对总体有几种类型并不知道总体分类已给定,在总体分布或来自总体训练样本基础上,对新样品判定属于哪个总体联系判别分析中的训练样本往往是从聚类分析中得到的第5页,共26页,星期日,2025年,2月5日引入:如何度量远近?如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。第6页,共26页,星期日,2025年,2月5日设X=为所关心的p个指标,对此指标作n次观测得n组观测值称这n组观测数据为n个样品。这样,每个样品可看成p维空间的一个点,n个样品组成p维空间的n个点,我们可以用各点之间的距离来衡量个样品点之间的靠近程度。样品间相似性的度量第7页,共26页,星期日,2025年,2月5日1欧氏距离2绝对距离3Minkowski距离其中m≥1,又称为Lm距离。4Chebyshev距离是Minkowski距离当m→+∞时的极限。广义的“距离”:第8页,共26页,星期日,2025年,2月5日由于不同指标通常有不同的量纲,这会引起各取值的分散程度差异较大,有时会造成很不合理的结果,为了消除此种影响,常需要在分析前对数据进行标准化处理。5方差加权距离标准化数据的欧氏距离就是方差加权距离。第9页,共26页,星期日,2025年,2月5日?6马氏距离通常都是尝试各种不同距离分析,最终采用最有利于分类的距离定义。[]??==-=---=--=-niiTniiinjiTjijixnxxxxxnSxxxSxxSxxxxd11212111))((11,,,)()()(其中算得的协方差矩阵:是由样品其中L第10页,共26页,星期日,2025年,2月5日令形成n个样品两两之间的距离矩阵:其中第11页,共26页,星期日,2025年,2月5日思想:首先将样品粗糙得分类,然后再依据样品间的距离按一定规则逐步调整,直至不能再调整为止。适合于:样本数目较大的数据集的聚类分析局限性:需要事先指定分类的数目,而且此数目对最终分类结果有较大影响。解决办法:实际中一般要对多个分类的数目进行尝试,以找出合理的分类结果快速聚类分析及实例第12页,共26页,星期日,2025年,2月5日1选择聚点(聚类中心点)经验选择将n个样品人为地(或随机地)分为k类,以每类的均值向量(称为重心)作为聚点。最大最小原则先选择所有样品中相距最远的两个样品为初始的两个聚点,然后,选择第3个聚点(与前两个聚点的距离最小者),按相同的原则依次选取下去,直至选出k个聚点。第13页,共26页,星期日,2025年,2月5日(1)随机选择聚类种子点或中心点;(2)将每个观察样本分配给最近的种子;(3)重新把每个聚集中的中心点作为种子;(4)不断重复上述过程直到种子的变化足够小为止。快速聚类法的步骤第14页,共26页,星期日,2025年,2月5日快速聚类法的步骤设k个初始聚点的集合是用下列原则实现初始分类:这样,将样品分成不相交的k类,以上初始分类的原则是每个样品以最近的初始聚点归类,这样得到一个初始分类第15页,共26页,星期日,2025年,2月5日2.从
您可能关注的文档
- 怎样和客户交朋友.ppt
- 图形变换的矩阵方法.ppt
- 眼睛和眼镜说课演示文稿.ppt
- 学时气体吸收.ppt
- 秋天的树叶作文.ppt
- 小学体育安全知识三年级室内.ppt
- 软硬酸碱理论.ppt
- 十分钟学懂战略地图.ppt
- 土木工程混凝土结构设计原理例题.ppt
- 酸碱平衡及血气分析.ppt
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
最近下载
- 代建项目部工作指引.docx VIP
- (完整版)新视野大学英语第三版视听说教程3答案(最新整理).pdf VIP
- 《保险会计》期末考试复习题库资料(含答案).pdf VIP
- 2021-2022学年江苏省连云港市八年级(上)期末数学试题及答案解析.docx VIP
- 安徽公务员行测真题.doc VIP
- 2025年《公司法公司法》知识考试题库及答案解析.docx VIP
- 2024版消防设计质量问题案例分析手册(水暖电建筑动力专业).docx
- 深度报告-20251213-东方证券-3D打印行业报告_飞入寻常百姓家_行业扩张奇点时刻降临_27页_1mb.docx VIP
- 与采购人配合沟通方案.docx VIP
- 老年病科2025年工作总结及2026年工作计划.docx
原创力文档


文档评论(0)