《数据挖掘与机器学习》课件5.1.2 数据降维、处理玻璃成分数据.pptx

下载文档

0
0
约3.64千字
约 26页
2024-12-31 发布于山东
举报
版权申诉
保障服务

《数据挖掘与机器学习》课件5.1.2 数据降维、处理玻璃成分数据.pptx

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

处理玻璃成分数据加工厂玻璃类别识别——决策树、随机森林

任务描述数据预处理是数据分析的基础，基础不牢，地动山摇，因此，数据预处理是关键一步。打好坚实的基础才能为之后的腾飞做好准备。数据预处理的具体目标是将不同格式和单位的数据，整合为同一形式，便于之后的数据分析。本任务将主要对加工厂生产的玻璃进行数据的预处理，包括数据集的划分、数据的标准化，以及通过PCA降维，提取数据集的主要特征。

任务要求利用sklearn库进行标准差标准化。利用sklearn库进行PCA降维。

数据标准化数据降维

数据降维数据降维是一种数据预处理技术，它通过减少数据中的冗余信息，来降低数据的维度，同时尽量保留原始数据的重要特征。什么是数据降维？

1减少计算成本。在大规模数据集上进行计算是一项非常耗时的任务，通过降低数据维度，可以减少计算成本，并且加快算法的执行速度。2去除冗余信息。数据通常包含很多冗余信息，这些信息可能对分析和建模没有任何帮助。通过降维，可以去除这些冗余信息，提高数据的效率和准确性。易于可视化。通过将数据降低到较低的维度，可以更容易地可视化和理解数据。数据降维的意义3数据降维

将高维数据映射到低维空间，并尽可能保留原始数据的信息将数据投影到一个新的低维空间，同时最大化类间距离，最小化类内距离主成分分析（PCA）线性判别分析（LDA）常见的数据降维方法数据降维

线性判别分析是一种经典的线性降维技术，也是一种常用的分类方法。用于在多类分类问题中寻找一个线性判别函数，能够最大程度地区分不同类别之间的差异。线性判别分析的基本思想是，将数据投影到一条直线或一个超平面上，使得同一类别的数据点尽量靠近，不同类别的数据点尽量远离。投影后，根据每个数据点在这条直线上的位置进行分类。什么是线性判别分析？线性判别分析

对于给定的数据集，LDA的目标是找到一个线性判别函数，通过将数据点投影到一维或多维的超平面，使得同一类内的数据点尽可能地接近，不同类之间的数据点尽可能地分开。投影向量偏置该线性判别函数可以表示为：线性判别分析

LDA的目标是最大化类间方差，最小化类内方差。类间散度矩阵类内散度矩阵线性判别分析其中，、可以通过计算各类的均值向量和协方差矩阵得到。

通过求解上述优化问题，可以得到最优的投影向量w，并将数据点投影到该向量上进行分类。线性判别分析

使用sklearn库中的LinearDiscriminantAnalysis类实现线性判别分析，其基本使用格式如下。classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=’svd’,shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)线性判别分析

LinearDiscriminantAnalysis类常用参数及其说明如下。参数名称说明solver接收str，表示指定求解的算法。取值“svd”时，表示奇异值分解；取值“lsqr”时，表示最小平方差算法；取值“eigen”时，表示特征值分解算法。默认为“svd”shrinkage接收“auto”或者float，该参数通常在训练样本数量小于特征数量的场合下使用。该参数只有在solver=“lsqr”或“eigen”下才有意义。接收“auto”时，表示自动决定该参数大小；接收float时，表示指定该参数大小；接收None时，表示不使用该参数。默认为Nonepriors接收array，表示数组中的元素依次指定了每个类别的先验概率。如果为None，则认为每个类的先验概率相等。默认为Nonen_components接收int，表示指定数据降维后的维度。默认为Nonestore_covariance接收boolean，表示是否计算每个类别的协方差矩阵。默认为False线性判别分析

什么是主成分分析法？PCA降维可以提高计算效率，同时提高模型效果和泛化能力，从而在实际应用中具有重要的意义和应用价值。PCA降维的基本思想是找到一个新的坐标系，使得数据在新的坐标系下具有最大的方差。换句话说，PCA降维通过线性变换将原始数据映射到新的坐标系中，使得数据在新的坐标系下的方差最大化，从而找到数据中最重要的方向（即主成分）。主成分分析

在主成分分析中，先对原始数据进行标准化，再计算协方差矩阵，协方差矩阵反映了数据中各个变量之间的相关性。如何计算协方差矩阵？主成分分析其中，表示第i个样本的特征向量，表示第j个样本的特征向量。设有的p维的随机向量，协方差矩阵计算方法如下。

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《数据挖掘与机器学习》课件5.1.2 数据降维、处理玻璃成分数据.pptx