第8讲_最大似然估计和主成分概念.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8讲 最大似然估计和主成分分析 主要内容 最大似然估计 维数问题 主成分分析 贝叶斯方法的困难: 先验概率P(wi)和类条件概率密度p(x|wi)难以获取。 解决办法: 利用训练样本来估计问题中所涉及的先验概率和类条件密度函数。 类条件密度函数估计的难点: 1)很多情况下,已有的训练样本数总是显得太少; 2)当用于表示特征的向量维数较大时,就会产生严重的计算复杂度问题。 解决办法:如果事先知道参数个数,并且先验知识允许能够把条件概率密度进行参数化,问题的难度就可以显著地降低。 两个概念:有监督学习和无监督学习 8.1最大似然估计 8.1.1 基本原理 已知样本集D,其中每一个样本都是独立的根据已知形式的概率密度函数p(x|θ)抽取得到的,要求使用这些样本,估计概率密度函数中的参数向量θ的值。 假设样本集D中有n个样本:x1, x2,…, xn。由于这些样本独立抽取,则下式成立: 定义对数似然函数l(θ) 8.1.2 高斯情况:μ未知 考虑一个训练样本点xk,有下面的式子成立: 8.1.2 高斯情况:μ和Σ均未知 考虑单变量的情况,对于单个训练样本的对数似然函数为: 当为多元高斯分布时 8.1.3估计的偏差 8.2 维数问题 问题包括50或100个特征 (二进制) 分类精度取决于维数和训练样本的数量 具有相同分布函数的两组多维向量情况 如果特征是独立的,则有: 最有用的特征:均值之间的距离大于标准差的特征。 降低误差概率的方法:引进新的,独立的特征。 在实际中,考虑较多的特征会导致更糟糕的结果而不是好的结果: 模型有误 8.3 主成分分析 将高维数据投影到一个低维空间里去 使用两种分类方法寻找理想一点的线性传递 PCA (主成份分析) “在最小均方误差意义下的数据的最优表示的映射” MDA (多类判别分析) “在最小均方误差意义下的数据的最优分类的映射” 8.3.1 概念 一个例子:小学各科成绩的评估可以用下面的综合成绩来体现: a1×语文+a2×数学+a3×自然+a4×社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量——主成分 8.3.1 概念 推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。 这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。 主成分分析(Principal Component Analysis, 简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。 为什么要根据方差确定主成分? 8.3.2主成分分析的目的 压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。 消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。 8.3.3 主成分得分 (潜变量-latent variable) 8.3.4 主成分轴、载荷向量 原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。 主成分分析的关键就是确定这些系数,这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分)。 三变量主成分分析示意图 PC1=a1xi1+a2xi2+a3xi3 PC2= b1xi1+b2xi2+b3xi3 主成分变换将三维空间的样本显示在二维空间,其中v1,v2称为第一、第二载荷轴。对于m维空间,载荷轴的个数最多为m。 8.3.5 基本概念 协方差(covariance) 方差 标准差 8.3.5 基本概念 相关系数(correlation coefficient ) 协方差数据矩阵的每一列对应一个变量的n个量测值,任意两列之间可以计算两变量间的协方差cov(i,j),i=j时, 协方差矩阵 ii)求协方差矩阵Z iii)特征分解 相当于将原来的坐标轴进行旋转得到新的坐标 轴U: —Z的特征值组成的对角阵 U—Z的特征向量按列组成的正交阵,它构成 了新的矢量空间,作为新变量(主成分)的坐标轴,又称为载荷轴。 得到的特征矢量的方差比前一个特征矢量更小,也就是依次递减。 iv) 确定主成分个数

文档评论(0)

5201394 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档