网站大量收购闲置独家精品文档,联系QQ:2885784924

《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据.pptx

《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据.pptx

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

处理玻璃成分数据加工厂玻璃类别识别——决策树、随机森林

任务描述数据预处理是数据分析的基础,基础不牢,地动山摇,因此,数据预处理是关键一步。打好坚实的基础才能为之后的腾飞做好准备。数据预处理的具体目标是将不同格式和单位的数据,整合为同一形式,便于之后的数据分析。本任务将主要对加工厂生产的玻璃进行数据的预处理,包括数据集的划分、数据的标准化,以及通过PCA降维,提取数据集的主要特征。

任务要求利用sklearn库进行标准差标准化。利用sklearn库进行PCA降维。

数据标准化数据降维

数据降维数据降维是一种数据预处理技术,它通过减少数据中的冗余信息,来降低数据的维度,同时尽量保留原始数据的重要特征。什么是数据降维?

1减少计算成本。在大规模数据集上进行计算是一项非常耗时的任务,通过降低数据维度,可以减少计算成本,并且加快算法的执行速度。2去除冗余信息。数据通常包含很多冗余信息,这些信息可能对分析和建模没有任何帮助。通过降维,可以去除这些冗余信息,提高数据的效率和准确性。易于可视化。通过将数据降低到较低的维度,可以更容易地可视化和理解数据。数据降维的意义3数据降维

将高维数据映射到低维空间,并尽可能保留原始数据的信息将数据投影到一个新的低维空间,同时最大化类间距离,最小化类内距离主成分分析(PCA)线性判别分析(LDA)常见的数据降维方法数据降维

线性判别分析是一种经典的线性降维技术,也是一种常用的分类方法。用于在多类分类问题中寻找一个线性判别函数,能够最大程度地区分不同类别之间的差异。线性判别分析的基本思想是,将数据投影到一条直线或一个超平面上,使得同一类别的数据点尽量靠近,不同类别的数据点尽量远离。投影后,根据每个数据点在这条直线上的位置进行分类。什么是线性判别分析?线性判别分析

对于给定的数据集,LDA的目标是找到一个线性判别函数,通过将数据点投影到一维或多维的超平面,使得同一类内的数据点尽可能地接近,不同类之间的数据点尽可能地分开。投影向量偏置该线性判别函数可以表示为:线性判别分析

LDA的目标是最大化类间方差,最小化类内方差。类间散度矩阵类内散度矩阵线性判别分析其中,、可以通过计算各类的均值向量和协方差矩阵得到。

通过求解上述优化问题,可以得到最优的投影向量w,并将数据点投影到该向量上进行分类。线性判别分析

使用sklearn库中的LinearDiscriminantAnalysis类实现线性判别分析,其基本使用格式如下。classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=’svd’,shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)线性判别分析

LinearDiscriminantAnalysis类常用参数及其说明如下。参数名称说明solver接收str,表示指定求解的算法。取值“svd”时,表示奇异值分解;取值“lsqr”时,表示最小平方差算法;取值“eigen”时,表示特征值分解算法。默认为“svd”shrinkage接收“auto”或者float,该参数通常在训练样本数量小于特征数量的场合下使用。该参数只有在solver=“lsqr”或“eigen”下才有意义。接收“auto”时,表示自动决定该参数大小;接收float时,表示指定该参数大小;接收None时,表示不使用该参数。默认为Nonepriors接收array,表示数组中的元素依次指定了每个类别的先验概率。如果为None,则认为每个类的先验概率相等。默认为Nonen_components接收int,表示指定数据降维后的维度。默认为Nonestore_covariance接收boolean,表示是否计算每个类别的协方差矩阵。默认为False线性判别分析

什么是主成分分析法?PCA降维可以提高计算效率,同时提高模型效果和泛化能力,从而在实际应用中具有重要的意义和应用价值。PCA降维的基本思想是找到一个新的坐标系,使得数据在新的坐标系下具有最大的方差。换句话说,PCA降维通过线性变换将原始数据映射到新的坐标系中,使得数据在新的坐标系下的方差最大化,从而找到数据中最重要的方向(即主成分)。主成分分析

在主成分分析中,先对原始数据进行标准化,再计算协方差矩阵,协方差矩阵反映了数据中各个变量之间的相关性。如何计算协方差矩阵?主成分分析其中,表示第i个样本的特征向量,表示第j个样本的特征向量。设有的p维的随机向量,协方差矩阵计算方法如下。

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档