人民大2024付东普《数据采集与处理:基于python》PPT第7章-数据清洗与预处理.pptx

人民大2024付东普《数据采集与处理:基于python》PPT第7章-数据清洗与预处理.pptx

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第七章

数据清洗与预处;2024-04-24;数据清洗;数据清洗;数据清理—异常数据处理;数据清理—异常数据处理;数据清理—异常数据处理;数据清理—缺失值处理;数据清理—缺失值处理;数据清理—噪声数据处理;数据清理—噪声数据处理;Python相关方法;Python相关方法;Python相关方法;Python相关方法;Python相关方法;Python相关方法;数据整合;数据整合简介;Python相关方法;Python相关方法;Python相关方法;Python相关方法;Python相关方法;Python相关方法;Python相关方法;Python相关方法;数据变换;数据变换Transformation;数据变换Transformation;数据变换Transformation;数据变换Transformation;数据变换Transformation;数据变换Transformation;数据变换Transformation;Python相关方法;Python相关方法;Python相关方法;Python相关方法;聚合与分组统计;分组;分组;分组;分组;分组;分组;分组;分组;分组;分组;分组;分组;分组聚合运算;分组聚合运算;分组聚合运算;分组聚合运算;分组聚合运算;分组聚合运算;数据归约;数据归约--Reduction;数据归约—数据降维;数据归约—数据降维;数据归约—图像压缩;数据归约—因子分析法;概念:

隐性变量(latentvariable,latentfactor,又译为潜变量):因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量(latentvariable,latentfactor)。比如,如果要测量学生的学习积极性,课堂中的积极参与、作业完成情况及课外阅读时间可以用来反应积极性。而学习成绩可以用期中、期末成绩来反映。学习积极性与学习成绩是无法直接用一个测度测准,它们必须用一组测度方法来测量,然后把测量结果结合起来,才能更准确地把握。

因子分析法的分类:

一类是探索性因子分析法,另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。主成分分析和共因子分析是其中的典型方法。验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然我们尚且不知道具体的系数。;因子分析法相关技术

结构方程模型SEM

偏最小二乘法PLS

主成分分析PCA

应用因子分析法的主要步骤:

(1)对数据样本进行标准化处理。

(2)计???样本的相关矩阵R。

(3)求相关矩阵R的特征根和特征向量。

(4)根据系统要求的累积贡献率确定主因子的个数。

(5)计算因子载荷矩阵A。

(6)确定因子模型。

(7)根据上述计算结果,对系统进行分析。;1.主成分分析(PCA)

PCA(PrincipalComponentAnalysis)是通过对原始变量的相关矩阵或协方差矩阵内部结构的研究,将多个变量转换为少数几个综合变量即主成分,从而达到降维目的的一种线性降维方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。PCA将数据方差作为对信息衡量的准则:方差越大,它所能包含的信息就越多,反之包含的信息就越少。因此,PCA可以看成一个坐标变换(K-L变换,即Karhunen-LoeveTransform,是建立在统计特性基础上的一种变换,也称为霍特林Hotelling变换,将离散信号变换成一串不相关系数的方法。K-L变换的突出优点是去相关性好,是均方误差意义下的最佳变换,它在数据压缩技术中占有重要地位)的过程:将高维数据的坐标投影到数据方差最大的方向组成的新坐标系中。PCA具有容易计算,解释性强等特点,但也存在不适用非线性结构高维数据、不适用非高斯分布数据以及主分量的个数难以确定等缺点

算法步骤大致为:

;PCA应用示例:人脸识别的数据降维

因在特征提取和数据降维方面的优越性,PCA近年来被广泛应用于特征提取、信号评测和信号探测等方面,其中人脸识别是PCA的一个经典的应用领域:利用K-L变换抽取人脸的主要成分,构成特征脸空间,识别时将测试图像投影到此空间,得到一组投影系数,通过与各个人脸图像比较进行识别。

利用特征脸法进行人脸识别的数据降维部分具体步骤如图。结果是提取了面部最重要的部分,将p后面的维数省去,从而达到降维的效果,同时保持了99%以上的原有的数据信息,接着就可以很方便的进行人脸的识别匹对了。;2.奇异值分解(SingularValueDecomposition,SVD)

PCA是通过特征值分解来进行特征提取的,但要求矩阵必须是方阵,但在实际应用场景中,经常遇到的矩阵不是方阵,而且基

您可能关注的文档

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

知识共享

1亿VIP精品文档

相关文档