- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
处理玻璃成分数据加工厂玻璃类别识别——决策树、随机森林
任务描述数据预处理是数据分析的基础,基础不牢,地动山摇,因此,数据预处理是关键一步。打好坚实的基础才能为之后的腾飞做好准备。数据预处理的具体目标是将不同格式和单位的数据,整合为同一形式,便于之后的数据分析。本任务将主要对加工厂生产的玻璃进行数据的预处理,包括数据集的划分、数据的标准化,以及通过PCA降维,提取数据集的主要特征。
任务要求利用sklearn库进行标准差标准化。利用sklearn库进行PCA降维。
数据标准化数据降维
数据降维数据降维是一种数据预处理技术,它通过减少数据中的冗余信息,来降低数据的维度,同时尽量保留原始数据的重要特征。什么是数据降维?
1减少计算成本。在大规模数据集上进行计算是一项非常耗时的任务,通过降低数据维度,可以减少计算成本,并且加快算法的执行速度。2去除冗余信息。数据通常包含很多冗余信息,这些信息可能对分析和建模没有任何帮助。通过降维,可以去除这些冗余信息,提高数据的效率和准确性。易于可视化。通过将数据降低到较低的维度,可以更容易地可视化和理解数据。数据降维的意义3数据降维
将高维数据映射到低维空间,并尽可能保留原始数据的信息将数据投影到一个新的低维空间,同时最大化类间距离,最小化类内距离主成分分析(PCA)线性判别分析(LDA)常见的数据降维方法数据降维
线性判别分析是一种经典的线性降维技术,也是一种常用的分类方法。用于在多类分类问题中寻找一个线性判别函数,能够最大程度地区分不同类别之间的差异。线性判别分析的基本思想是,将数据投影到一条直线或一个超平面上,使得同一类别的数据点尽量靠近,不同类别的数据点尽量远离。投影后,根据每个数据点在这条直线上的位置进行分类。什么是线性判别分析?线性判别分析
对于给定的数据集,LDA的目标是找到一个线性判别函数,通过将数据点投影到一维或多维的超平面,使得同一类内的数据点尽可能地接近,不同类之间的数据点尽可能地分开。投影向量偏置该线性判别函数可以表示为:线性判别分析
LDA的目标是最大化类间方差,最小化类内方差。类间散度矩阵类内散度矩阵线性判别分析其中,、可以通过计算各类的均值向量和协方差矩阵得到。
通过求解上述优化问题,可以得到最优的投影向量w,并将数据点投影到该向量上进行分类。线性判别分析
使用sklearn库中的LinearDiscriminantAnalysis类实现线性判别分析,其基本使用格式如下。classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=’svd’,shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)线性判别分析
LinearDiscriminantAnalysis类常用参数及其说明如下。参数名称说明solver接收str,表示指定求解的算法。取值“svd”时,表示奇异值分解;取值“lsqr”时,表示最小平方差算法;取值“eigen”时,表示特征值分解算法。默认为“svd”shrinkage接收“auto”或者float,该参数通常在训练样本数量小于特征数量的场合下使用。该参数只有在solver=“lsqr”或“eigen”下才有意义。接收“auto”时,表示自动决定该参数大小;接收float时,表示指定该参数大小;接收None时,表示不使用该参数。默认为Nonepriors接收array,表示数组中的元素依次指定了每个类别的先验概率。如果为None,则认为每个类的先验概率相等。默认为Nonen_components接收int,表示指定数据降维后的维度。默认为Nonestore_covariance接收boolean,表示是否计算每个类别的协方差矩阵。默认为False线性判别分析
什么是主成分分析法?PCA降维可以提高计算效率,同时提高模型效果和泛化能力,从而在实际应用中具有重要的意义和应用价值。PCA降维的基本思想是找到一个新的坐标系,使得数据在新的坐标系下具有最大的方差。换句话说,PCA降维通过线性变换将原始数据映射到新的坐标系中,使得数据在新的坐标系下的方差最大化,从而找到数据中最重要的方向(即主成分)。主成分分析
在主成分分析中,先对原始数据进行标准化,再计算协方差矩阵,协方差矩阵反映了数据中各个变量之间的相关性。如何计算协方差矩阵?主成分分析其中,表示第i个样本的特征向量,表示第j个样本的特征向量。设有的p维的随机向量,协方差矩阵计算方法如下。
您可能关注的文档
- 《数据挖掘与机器学习》 课件 1.1.1 初识机器学习与数据挖掘、Python、Anaconda.pptx
- 《数据挖掘与机器学习》 课件1.1.2 安装Python.pptx
- 《数据挖掘与机器学习》 课件1.2 安装PyCharm.pptx
- 《数据挖掘与机器学习》 课件2.1 分析农产品类型情况.pptx
- 《数据挖掘与机器学习》 课件2.2.1 数据读取与写入.pptx
- 《数据挖掘与机器学习》 课件2.2.2 pandas数据结构.pptx
- 《数据挖掘与机器学习》 课件2.2.3 数据清洗.pptx
- 《数据挖掘与机器学习》 课件2.2.4 数据合并.pptx
- 《数据挖掘与机器学习》 课件2.2.5 分组聚合、处理农产品基本信息数据.pptx
- 《数据挖掘与机器学习》 课件2.3.1 基本语法和常用参数.pptx
- 某县纪委监委开展“校园餐”突出问题专项整治工作汇报22.docx
- 中小学校园食品安全与膳食经费管理专项整治工作自查报告66.docx
- 某县委常委、宣传部部长年度民主生活会“四个带头”个人对照检查发言材料.docx
- XX县委领导班子年度述职述廉报告3.docx
- 某县纪委关于校园餐问题整治工作落实情况的报告.docx
- 中小学校园食品安全与膳食经费管理专项整治工作自查报告22.docx
- 某县税务局党委领导班子年度民主生活会“四个带头”对照检查材料.docx
- 某县委书记在县委常委班子年度民主生活会专题学习会上的讲话.docx
- 某县纪委校园餐问题整治工作落实情况的报告.docx
- 某区委副书记、区长年度民主生活会对照检查材料.docx
文档评论(0)