机器学习与Python实践 03数据的降维.docxVIP

下载本文档

3
0
约7.83千字
约 63页
2025-04-27 发布于湖南
举报
版权申诉

机器学习与Python实践 03数据的降维.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

叔州電子种水大学

第三章数据的特征工程-降维

本章目录

01降维概述

02SVD(奇异值分解)

03PCA(主成分分析)

1.降维概述

01降维概述

02SVD(奇异值分解)

03PCA(主成分分析)

1.降维概述

维数灾难(CurseofDimensionality):通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。

在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。

1.降维概述

维数灾难

维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中，通常指的是随着特征数量的增多，计算量会变得很大，如特征达到上亿维的话，在进行计算的时候是算不出来的。有的时候，维度太大也会导致机器学习性能的下降，并不是特征维度越大越好，模型的性能会随着特征的增加先上升后下降。

1.降维概述

什么是降维?

降维(DimensionalityReduction)是将训练数据中的样本(实例)从高维空间转换到低维空间，该过程与信息论中有损压缩概念密切相关。同时要明白的，不存在完全无损的降维。

有很多种算法可以完成对原始数据的降维，在这些方法中，降维是通过对原始数据的线性变换实现的。

1.降维概述

为什么要降维

·高维数据增加了运算的难度

·高维使得学习算法的泛化能力变弱(例如，在最近邻分类器中，样本复杂度随着维度成指数增长),维度越高，算法的搜索难度和成本就越大。

●降维能够增加数据的可读性，利于发掘数据的有意义的结构

1.降维概述

降维的主要作用

1.减少冗余特征，降低数据维度

2.数据可视化

1.降维概述

减少冗余特征

假设我们有两个特征：

x?:长度用厘米表示的身高；x?:是用英寸表示的身高。

这两个分开的特征x?和x?,实际上表示的内容相同，这样其实可以减少数据到一维，只有一个特征表示身高就够了。

很多特征具有线性关系，具有线性关系的特征很多都是冗余的特征，去掉冗余特征对机器学习的计算结果不会有影响。

1.降维概述

数据可视化

t-distributedStochasticNeighborEmbedding(t-SNE)

t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示，嵌入空间的相似度由“学生t分布”表示。

虽然Isomap,LLE和variants等数据降维和可视化方法，更适合展开单个连续的低维的manifold。但如果要准确的可视化样本间的相似度关系，如对于下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好。因为t-SNE主要是关注数据的局部结构。

1.降维概述

降维的优缺点

降维的优点：

·通过减少特征的维数，数据集存储所需的空间也相应减少，减少了特征维数所需的计算训练时间；

·数据集特征的降维有助于快速可视化数据；

·通过处理多重共线性消除冗余特征。

降维的缺点：

·由于降维可能会丢失一些数据；

·在主成分分析(PCA)降维技术中，有时需要考虑多少主成分是难以确定的，往往使用经验法则

1.降维概述

2104810

210

4810

121

210

x121

2.SVD(奇异值分解)

01降维概述

02SVD(奇异值分解)

03PCA(主成分分析)

2.SVD(奇异值分解)

奇异值分解(SingularValueDecomposition,以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。

SVD可以将一个矩阵A分解为三个矩阵的乘积：

一个正交矩阵U(orthogonalmatrix),一个对角矩阵Z(diagonalmatrix),

一个正交矩阵V的转置。

2.SVD(奇异值分解)

假设矩阵A是一个m×n的矩阵，通过SVD是对矩阵进行分解，那么我们定义矩阵A的SVD为：

A=UZVT

奇异值

●

●VT

n×n

UA∑

您可能关注的文档

文档评论（0）

长情又很酷 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习与Python实践 03数据的降维.docxVIP