- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商业数据分析·PCA.ppt
商业数据分析 2016·11·22 预习习题回顾 预习习题回顾 Preview ① PCA是_Principal Component Analysis_的简称,中文名为_主成分分析法__,是一种用于__数据降维_的经典算法。 ② 什么是协方差?什么是协方差矩阵? 协方差表示的是两个随机变量的总体的误差。如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 协方差矩阵表示一组随机变量相互间的协方差。其 i, j 位置的元素是第 i 个与第 j 个随机向量之间的协方差。 0 预习习题回顾 预习习题回顾 Preview ③ 简要描述PCA的步骤。 通过奇异值分解得到相互正交(不相关)的主成分方向,选取其中样本数据方差最大的几个方向,并把数据投影到其上面。 (这个简述中新出现的概念会在之后介绍。) 0 1 探索性数据分析(EDA)简介 2 线性降维 3 非线性降维 4 聚类 5 平滑散点图 6 聚类可视化 7 分布形状 8 多元可视化 目录 线性降维 线性降维 2 1 PCA Principal Component Analysis 主成分分析法 线性降维 2 数学知识回顾 1、样本X和样本Y的协方差(Covariance): 两个样本中有n个样本点,X中第i个样本点记为Xi。X则是X中所有样本点的均值。 如果对于每一对样本点,Xi大于均值的时候,Yi也大于均值,那么协方差为正,表示了正相关关系,反之是负相关的关系。如果协方差为零,那么X与Y不(线性)相关。 不难发现,cov(X,Y)=cov(Y,X)。 Cov(X,X)就是X的样本方差(Variance)。方差越大,数据波动越大,方差越小,数据波动越小。 (为什么n个样本点只是除以n-1?有兴趣的同学可以去探索一下。) 线性降维 2 数学知识回顾 1、样本X和样本Y的协方差(Covariance): 协方差矩阵。 其第 1 行第 1 列的元素是cov(X,X),即X的方差。 其第 1 行第 2 列的元素是cov(X,Y),即X和Y的协方差。 其第 2 行第 1 列的元素是cov(Y,X),同上。 其第 2 行第 2 列的元素是cov(Y,Y),即Y的方差。 小问题:协方差矩阵等于其转置吗?为什么? 线性降维 2 数学知识回顾 2、特征值 特征向量 假设A是一个n×n的矩阵,若: Av=λv 则称向量v是矩阵A的一个特征向量,λ是相应的特征值。 可以这样理解: 矩阵A作用在它的特征向量X上,仅仅使得X的长度发生了变化,缩放比例就是相应的特征值。 特征向量都是单位向量,且不同特征值的特征向量相互正交。 小问题:Matlab中求特征值和特征向量的命令是什么? 线性降维 2 问题起源 真实的训练数据总是存在各种各样的问题,举几个例子: 一个汽车的数据,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。1千米(km)=0.6213712英里(mi)。 数学考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢? 1 2 线性降维 2 问题起源 高维数据可视化问题: 分析数据之前一般先进行可视化。 假设教育超市希望通过的数据分析方法提升一下服务质量。 首先他们抽出了过去一年的年消费额和学生的专业,作了直方图发现设计系的同学消费都很高,于是教超决定以后对设计系的同学服务好一点。 之后教超把年消费额分成零食饮料消费额和其他部分,用颜色代表不同专业,这时还是可以画出二维的图。 但是分成零食饮料,生活用品,文具和其他,加上专业就是五个维度的数据,这时无论用什么技巧都难以直接可视化整个数据的分布的了。 因此,我们遇到高维数据的时候需要一切降维技术,使得数据可以被“看见”。 但是,降维不可避免会损失一些信息。 线性降维 2 PCA 主成分分析(PCA)的方法可以解决部分上述问题。 PCA的思想是: 将p维的样本线性映射到k维空间上(kp)。而且,这k个维度是相互正交(不相关)的。 这k个方向就是主成分,并且是重新构造出来的,而不是简单地从原来p维中去除p-k维。 神马是映射 线性降维 2 画个图你就秒懂了: 二维数据投影到一维 用数学语言来描述映射 线性降维 2 原始数据点是蓝色的六个点,我们要把它从一个 垂直正交二维空间投影到一条直线(一维空间)上。 假设这条黄色的直线,和原来的横轴角度为θ,我们定义一个投影矩阵P: 用原来的点的坐标构成的矩阵去乘以矩阵P,就完成了映射: 用数学语言来描述映射 线性降维 2 问题:投影矩
您可能关注的文档
最近下载
- 6-CFD基础及软件应用汇总课件.pptx VIP
- 移动通信职业规划.docx VIP
- 2024年杭州钱塘新区城市发展集团有限公司招聘真题 .pdf VIP
- 输日热加工禽肉及其产品动物卫生要求.pdf VIP
- 2025杭州钱塘新区城市发展集团有限公司社会招聘22人笔试备考题库及答案解析.docx VIP
- 药物分析与常用组学技术在药学服务中的应用题库答案-2025年华医网继续教育.docx VIP
- 海丰2022年事业编招聘考试《公共基础知识》真题及答案解析三.docx VIP
- 7、美国联邦法典第九卷联邦肉类检验法.doc VIP
- 2024年入团积极分子考试题库.docx VIP
- 《荷塘月色》课件25张 .ppt VIP
文档评论(0)