第6章 PCAamp;ICA-1.pptVIP

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章PCA

第六章 主分量分析(PCA- Principle Components Analysis)和 独立分量分析 ( ICA- Independent Components Analysis) §6-1 概述 具有三个特征的两类分类问题,即,特征矢量 { x1, x2, x3 }: 坐标旋转,即,用新特征 { y1, y2 }代替{ x1, x2, x3 }得到: 再次坐标旋转,可见,只用一个特征 {z},就足以分开。 模式识别的空间,从 { x1, x2, x3 } = { y1, y2 } ={z} 称为“降维”。 可降维的前提是,原来的特征空间具有“冗余”。 §6-2随机变量的统计特性基础 一、随机变量与随机矢量的概率分布 概率密度分布: 设有 M 维特征矢量 X , (6-1) 假设 xm 是连续变量,则其概率可以表示为: 第m行是特征 xm的第 n 次采样值,第 n 列是所有特征的第 n 次采样值。 (6-2) (6-3) (6-4) 对特征矢量 X 进行多次采样,得到 N 个样本: Xn 是特征矢量 X 的第 n 次采样结果,即,随机矢量 X 的第 n 个实现。 xm取某个指定值的概率为0 ,即: 但在某区间上取值不为0 : 正态分布: 随机矢量的概率: (6-4) (6-5) 表示 X中的每个分量都小于或等于X0中相应分量,即 中的相应分量,即 其中: (6-6) 也就是多个随机变量的联合分布。 随机矢量的概率密度函数: 联合分布的 x 边缘分布分别 两个随机变量 x 和 y ,或随机矢量 X=[x, y],其联合分布 p(x, y) (6-11) 给定 ,即 X0 ≤ X ≤ X1 的概率为: 给定 ,即 X0 ≤ X 的概率为: 即,y取任意值情况下,x的分布。实际上,就是不理睬 y 而单独观察 x 时,它的分布情况。同理可以定义 y 的边沿分布: 二、相关矩阵和协方差矩阵 随机矢量的数学期望: 称为随机矢量 X 的均方差。 随机矢量 X 的方差的估计: 设 g(X)是随机矢量 X 的导出量,则 g(X) 的数学期望定义为: (6-12) 当 g(X)=X 时得到 (6-13) 如果 pX(X) 为对称分布,则,mX 的估计为: 当 时g(X) 的数学期望: (6-17) 例如,轮盘赌,获得41元奖金的概率是1/51,15元奖金的概率3/51,8元奖金的概率5/51,5元奖金的概率7/51,3元奖金的概率10/51,2元奖金的概率25/51,如果在每个位置都下注一元,则每把必赢,赢钱的期望值为: 41/51+15×3/51+8×5/51+5×7/51+3×10/51+2×25/51 = 4.7255 4.7255 – 6= – 1.2745 只在15元、2元处个押一元,则期望值为: 15×3/51+2×25/51 = 1.8627 1.8627 – 2 = – 0.1373 两个随机变量的相关系数: 两个随机矢量的相关矩阵: (6-18) (6-19) (6-20) (6-21) 随机变量 xi 和 xj 的相关系数 E{xi xj}的估计为: 如果两个随机矢量 X 和 Y 的采样数据矩阵(形式如6-1所示)中样本数量相同,自相关矩阵的估计为: 当 X = Y 时,得到自相关矩阵: 相关系数从总体上描述的随机变量之间的“相似性”,或 “关联程度”。 例如:随机变量 x 、y 和 z,其中 x、y 比较大,而 z 比较小,那么 Rxy肯定比Rxz大,说明 x 更接近 y 一些。 观察连续的随机变量 x 、y 和 z。显然,x 的波动形式 更接近 y 一些,但从相关系数上却不能得到正确的判断,原因是信号的均值严重影响着相关系数的计算结果。 为此,先将信号“去均值”后再进行相关运算: 但是,即使是去均值以后做相关运算,有时候仍有不理想的现象。如图所示, x 和 y 的相似程度高于 z,但由于 z 的幅度非常大,结果导致 Rxz Rxy。 为了消除由于“波动范围”大小而对相似性测度引起的干扰,将每个信号都除以它自己的方差: ,即“方差归一化”。 协方差矩阵的估计: (6-24) (6-25) 其中 mX 和 mY 分别为随机矢量 X 和 Y 的均值矢量。矢量的均值就是其每个分量的均值构成的矢量,例如: 去了均值后所计算的相关系数,叫作“协方差”,协方差的估计: 随机矢量去均值,然后求其相关矩阵则得到“协方差矩阵”: 复习:已知随机变量 x 及其概率密度函数 p(x) 随机变量 x 的 k 阶矩:

文档评论(0)

qwd513620855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档