- 0
- 0
- 约1.34万字
- 约 6页
- 2026-02-04 发布于浙江
- 举报
UMAP降维算法原理详解和应⽤⽰例
降维不仅仅是为了数据可视化。它还可以识别⾼维空中的关键结构并将它们保存在低维嵌⼊中来克服“维度诅咒”
本⽂将介绍⼀种流⾏的降维技术UniformManifoldApproximationandProjection(UMAP)的内部⼯作原理,并提供⼀个Python⽰
例。
(UMAP)如何⼯作的?
分析UMAP名称
让我们从剖析UMAP名称开始,这将使我们对算法应该做什么有⼀个⼤致的了解。
以下描述不是官⽅定义,⽽是我总结出来的可帮助我们理解UMAP的要点。
Projection——通过投影点在平⾯、曲⾯或线上再现空对象的过程或技术。也可以将其视为对象从⾼维空到低维空的映射。
Approximation——算法假设我们只有⼀组有限的数据样本(点),⽽不是构成流形的整个集合。因此,我们需要根据可⽤数据来近似流
形。
Manifold——流形是⼀个拓扑空,在每个点附近局部类似于欧⼏⾥得空。⼀维流形包括线和圆,但不包括类似数字8的形状。⼆维流形
(⼜名曲⾯)包括平⾯、球体、环⾯等。
Uniform——均匀性假设告诉我们我们的数据样本均匀(均匀)分布在流形上。但是,在现实世界中,这种情况很少发⽣。因此这个假设引
出了在流形上距离是变化的概念。即,空本⾝是扭曲的:空根据数据显得更稀疏或更密集的位置进⾏拉伸或收缩。
综上所述,我们可以将UMAP描述为:
⼀种降维技术,假设可⽤数据样本均匀(Uniform)分布在拓扑空(Manifold)中,可以从这些有限数据样本中近似
(Approximation)并映射(Projection)到低维空。
上⾯对算法的描述可能会对我们理解它的原理有⼀点帮助,但是对于UMAP是如何实现的仍然没有说清楚。为了回答“如何”的问题,让我
们分析UMAP执⾏的各个步骤。
UMAP执⾏的步骤
我们可以将UMAP分为两个主要步骤:
1.学习⾼维空中的流形结构
2.找到该流形的低维表⽰。
下⾯我们将把它分解成更⼩的部分,以加深我们对算法的理解。下⾯的地图显⽰了我们在分析每个部分⼯作流程。
1—学习流形结构
在我们将数据映射到低维之前,肯定⾸先需要弄清楚它在⾼维空中的样⼦。
1.1.寻找最近的邻居
UMAP⾸先使⽤Nearest-Neighbor-Descent算法找到最近的邻居。我们可以通过调整UMAP的n_neighbors超参数来指定我们想要
使⽤多少个近邻点。
试验n_neighbors的数量很重要,因为它控制UMAP如何平衡数据中的局部和全局结构。它通过在尝试学习流形结构时限制局部邻域的
⼤⼩来实现。
本质上,⼀个⼩的n_neighbors值意味着我们需要⼀个⾮常局部的解释,准确地捕捉结构的细节。⽽较⼤的n_neighbors值意味着我们的
估计将基于更⼤的区域,因此在整个流形中更⼴泛地准确。
1.2.构建⼀个图
接下来,UMAP需要通过连接之前确定的最近邻来构建图。为了理解这个过程,我们需要将他分成⼏个⼦步骤来解释邻域图是如何形成
的。
1.2.1变化距离
正如对UMAP名称的分析所述,我们假设点在流形上均匀分布,这表明它们之的空根据数据看起来更稀疏或更密集的位置⽽拉伸或收
缩的。
它本质上意味着距离度量不是在整个空中通⽤的,⽽是在不同区域之变化的。我们可以通过在每个数据点周围绘制圆圈/球体来对其进
⾏可视化,由于距离度量的不同,它们的⼤⼩似乎不同(见下图)。
1.2.2local_connectivity
接下来,我们要确保试图学习的流形结构不会导致许多不连通点。所以需要使⽤另⼀个超参数local_connectivity(默认值=1)来解决这个潜
在的问题
当我们设置local_connectivity=1时,我们告诉⾼维空中的每⼀个点都与另⼀个点相关联。
1.2.3模糊区域
你⼀定已经注意到上⾯的图也包含了模糊的圆圈延伸到最近的邻居之外。这告诉我们,当我们离感兴趣的点越远,与其他点联系的确定性就
越⼩。
这两个超参数(local_connectivity和n_neighbors)最简单的理解就是可以将他们视为下限和上限:
Local_connectivity(默认值为1):100%确定每个点⾄少
您可能关注的文档
- 2020中考作文预测题导写:这份爱,照亮了我.pdf
- 2021年部编版四年级上册看拼音写词语(最新版)).pdf
- 2022 年全国硕士研究生入学统一考试英语(二)试题及答案.pdf
- 2022-02-28重新理解财富:完成12次认知升级.pdf
- 2022-2023学年度第二学期期末调研测试试题七年级期末试卷.pdf
- 2022-2023学年黑龙江省绥化市七年级(下)期末英语试卷(含解析).pdf
- 2022年山东省枣庄市中考数学试卷(原卷版).pdf
- 2022年四川单招生文化考试语文卷(含答案).pdf
- 2022注册岩土工程师考试岩土案例模拟卷(一).pdf
- 2022最新USB命名及速率标准.pdf
- Unit 7 Will people have robots优秀教学设计.pdf
- Unit4 单元检测题 人教版英语七年级上册(含答案).pdf
- UNIX网络编程卷1:套接字联网API(第3版)中文高清带完整书签PDF.pdf
- VDA血管阻断剂DMXAA (Vadimezan)DT-diaphorase竞争性抑制剂CAS号117570-53-3生物活性.pdf
- Win10锁屏与关机相关设置-注册表.pdf
- wps怎么制作一个红色的电子印章?.pdf
- YJ160、160D、YJ200、200AYJ240YJ245YJ336YJ360制动器拆解与清洁.pdf
- 安徒生《皇帝的新装》原文阅读.pdf
- 案件评查整改报告3篇.pdf
- 半导体物理(朱俊)第二章 半导体中的杂质和能级缺陷.pdf
最近下载
- 2024年江苏农牧科技职业学院高职单招职业适应性测试历年高频考点试题含答案解析.docx VIP
- 2025年高考语文备考之文言文《古文观止》训练50篇答案.pdf VIP
- 7.22实现第一个百年奋斗目标课件--2025-2026学年统编版八年级历史下册.pptx VIP
- 心脏射频消融护理.pptx VIP
- 领导班子2025年度民主生活会相互批评意见建议+问题清单合计100条汇编.docx VIP
- 《入党积极分子培养》课件.ppt VIP
- 《个人股东股权转让信息表》.docx VIP
- 叉车报废申请表原稿.docx
- 电源模块测试规范.doc VIP
- 初中物理中考力学专项练习(选择题)201-300(含答案解析).doc VIP
原创力文档

文档评论(0)