- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
叔州電子种水大学
1
第三章数据的特征工程-降维
本章目录
2
2
01降维概述
02SVD(奇异值分解)
03PCA(主成分分析)
1.降维概述
3
3
01
01降维概述
02SVD(奇异值分解)
03PCA(主成分分析)
1.降维概述
4
4
维数灾难(CurseofDimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。
在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。
XX
X
1.降维概述
5
5
维数灾难
维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中,通常指的是随着特征数量的增多,计算量会变得很大,如特征达到上亿维的话,在进行计算的时候是算不出来的。有的时候,维度太大也会导致机器学习性能的下降,并不是特征维度越大越好,模型的性能会随着特征的增加先上升后下降。
1.降维概述
6
6
什么是降维?
降维(DimensionalityReduction)是将训练数据中的样本(实例)从高维空间转换到低维空间,该过程与信息论中有损压缩概念密切相关。同时要明白的,不存在完全无损的降维。
有很多种算法可以完成对原始数据的降维,在这些方法中,降维是通过对原始数据的线性变换实现的。
1.降维概述
7
7
为什么要降维
·高维数据增加了运算的难度
·高维使得学习算法的泛化能力变弱(例如,在最近邻分类器中,样本复杂度随着维度成指数增长),维度越高,算法的搜索难度和成本就越大。
●降维能够增加数据的可读性,利于发掘数据的有意义的结构
1.降维概述
8
8
降维的主要作用
1.减少冗余特征,降低数据维度
2.数据可视化
1.降维概述
9
减少冗余特征
假设我们有两个特征:
x?:长度用厘米表示的身高;x?:是用英寸表示的身高。
这两个分开的特征x?和x?,实际上表示的内容相同,这样其实可以减少数据到一维,只有一个特征表示身高就够了。
很多特征具有线性关系,具有线性关系的特征很多都是冗余的特征,去掉冗余特征对机器学习的计算结果不会有影响。
1.降维概述
10
10
数据可视化
t-distributedStochasticNeighborEmbedding(t-SNE)
t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。
虽然Isomap,LLE和variants等数据降维和可视化方法,更适合展开单个连续的低维的manifold。但如果要准确的可视化样本间的相似度关系,如对于下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好。因为t-SNE主要是关注数据的局部结构。
1.降维概述
11
11
降维的优缺点
降维的优点:
·通过减少特征的维数,数据集存储所需的空间也相应减少,减少了特征维数所需的计算训练时间;
·数据集特征的降维有助于快速可视化数据;
·通过处理多重共线性消除冗余特征。
降维的缺点:
·由于降维可能会丢失一些数据;
·在主成分分析(PCA)降维技术中,有时需要考虑多少主成分是难以确定的,往往使用经验法则
1.降维概述
12
12
2104810
210
4810
121
1
210
x121
x1
2.SVD(奇异值分解)
13
13
01降维概述
02SVD(奇异值分解)
03PCA(主成分分析)
2.SVD(奇异值分解)
14
14
奇异值分解(SingularValueDecomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。
SVD可以将一个矩阵A分解为三个矩阵的乘积:
一个正交矩阵U(orthogonalmatrix),一个对角矩阵Z(diagonalmatrix),
一个正交矩阵V的转置。
2.SVD(奇异值分解)
15
15
假设矩阵A是一个m×n的矩阵,通过SVD是对矩阵进行分解,那么我们定义矩阵A的SVD为:
A=UZVT
奇异值
r
●
●VT
n×n
UA∑
U
文档评论(0)