机器学习与Python实践 03数据的降维.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

叔州電子种水大学

1

第三章数据的特征工程-降维

本章目录

2

2

01降维概述

02SVD(奇异值分解)

03PCA(主成分分析)

1.降维概述

3

3

01

01降维概述

02SVD(奇异值分解)

03PCA(主成分分析)

1.降维概述

4

4

维数灾难(CurseofDimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。

在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。

XX

X

1.降维概述

5

5

维数灾难

维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中,通常指的是随着特征数量的增多,计算量会变得很大,如特征达到上亿维的话,在进行计算的时候是算不出来的。有的时候,维度太大也会导致机器学习性能的下降,并不是特征维度越大越好,模型的性能会随着特征的增加先上升后下降。

1.降维概述

6

6

什么是降维?

降维(DimensionalityReduction)是将训练数据中的样本(实例)从高维空间转换到低维空间,该过程与信息论中有损压缩概念密切相关。同时要明白的,不存在完全无损的降维。

有很多种算法可以完成对原始数据的降维,在这些方法中,降维是通过对原始数据的线性变换实现的。

1.降维概述

7

7

为什么要降维

·高维数据增加了运算的难度

·高维使得学习算法的泛化能力变弱(例如,在最近邻分类器中,样本复杂度随着维度成指数增长),维度越高,算法的搜索难度和成本就越大。

●降维能够增加数据的可读性,利于发掘数据的有意义的结构

1.降维概述

8

8

降维的主要作用

1.减少冗余特征,降低数据维度

2.数据可视化

1.降维概述

9

减少冗余特征

假设我们有两个特征:

x?:长度用厘米表示的身高;x?:是用英寸表示的身高。

这两个分开的特征x?和x?,实际上表示的内容相同,这样其实可以减少数据到一维,只有一个特征表示身高就够了。

很多特征具有线性关系,具有线性关系的特征很多都是冗余的特征,去掉冗余特征对机器学习的计算结果不会有影响。

1.降维概述

10

10

数据可视化

t-distributedStochasticNeighborEmbedding(t-SNE)

t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。

虽然Isomap,LLE和variants等数据降维和可视化方法,更适合展开单个连续的低维的manifold。但如果要准确的可视化样本间的相似度关系,如对于下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好。因为t-SNE主要是关注数据的局部结构。

1.降维概述

11

11

降维的优缺点

降维的优点:

·通过减少特征的维数,数据集存储所需的空间也相应减少,减少了特征维数所需的计算训练时间;

·数据集特征的降维有助于快速可视化数据;

·通过处理多重共线性消除冗余特征。

降维的缺点:

·由于降维可能会丢失一些数据;

·在主成分分析(PCA)降维技术中,有时需要考虑多少主成分是难以确定的,往往使用经验法则

1.降维概述

12

12

2104810

210

4810

121

1

210

x121

x1

2.SVD(奇异值分解)

13

13

01降维概述

02SVD(奇异值分解)

03PCA(主成分分析)

2.SVD(奇异值分解)

14

14

奇异值分解(SingularValueDecomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。

SVD可以将一个矩阵A分解为三个矩阵的乘积:

一个正交矩阵U(orthogonalmatrix),一个对角矩阵Z(diagonalmatrix),

一个正交矩阵V的转置。

2.SVD(奇异值分解)

15

15

假设矩阵A是一个m×n的矩阵,通过SVD是对矩阵进行分解,那么我们定义矩阵A的SVD为:

A=UZVT

奇异值

r

●VT

n×n

UA∑

U

文档评论(0)

长情又很酷 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档