模式识别第3讲教案.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别 模式识别——原理、方法及应用 第3次课程概要 模式判别 PCA 特征评价 维数比率问题 PCA Principal component analysis 主元分析 或 主成分分析 功能:简化复杂数据到低维空间,从而发现数据中隐藏的简单结构。 原始数据源(生数据)通常有冗余,包含噪声 PCA的目标:去除冗余,并发现重要特征 PCA的大致思路 认为原始数据X是复杂的(有噪声有冗余),要对X重新表示 重新表示后数据的维度即为隐藏于X中的简单结构 PCA怎么做? 技术路线 利用线性代数为工具,用另一组基去重新描述数据空间 新的基能够最好地表示原数据X 原有的基是什么样的形式呢?Na?ve basis: 目标:找到另一组基,能最好表达数据集,这个新的基是原有基的线性组合 基变换 n个样本 每个样本m个特征 构成m×n的矩阵X P是从X到Y的转换矩阵 几何上,Y由对X旋转拉伸得到 P的行向量构成一组新的基,而Y是在这组基下对X的重新表示 在线性的假设条件下,要解答 要寻求一组变换后的基,也就是P的行向量{p1, … pm} 这组基就是X的主元 要解答的问题 1 我们要将X转换成为的Y是个什么样子? 2 对应于Y,如何求解P? 我们要将X转换成为的Y是个什么样子? 回顾一下PCA要解决的问题,数据复杂混乱 噪声 冗余 重要特征和噪声的数学描述 信噪比 要使得信噪比大,信号的方差大,噪声的方差小 假设:变化较大的信息认为是信号,变化较小的则是噪声 冗余的数学描述 该变量可以用其它变量表示,因此造成了信息冗余 PCA的目标及它基于的假设 通过基变换,对协方差矩阵进行优化,即使得变换后的数据集Y,其协方差矩阵为对角阵。 线性假设:PCA内部模型是线性的,是基于原始特征的线性变换。(如果原始数据存在非线性属性,则经PCA分析后将不再反映这种非线性属性) 方差越大,特征越重要。(有些对整体方差贡献不大的主成分,有可能在样本分类方面起至关重要的作用) 冗余用相关性表示。(数据的概率分布需要满足高斯分布或是指数型的概率分布) 主元正交,即转换基是一组标准正交基。该假设的作用是方便求解 PCA求解:特征根分解(1) PCA求解:特征根分解(2) PCA算法的一般求解步骤 由以上推导,PCA算法的一般求解步骤如下 1 采集数据,形成m×n的矩阵,m为特征个数,n为样本数。 2 矩阵中的每个元素减去该维的均值,得到X 3 求XX‘的特征根 将PCA用于降维 由PCA线性变换后得到的数据集,可认为是没有冗余的。 在此结构下,可以讨论样本中的哪些属性(特征)比较重要。 按方差由大到小排序,但丢弃的准则是什么? 有关PCA需要注意的一个问题 原始数据集里,每个特征是有意义的。比如图像中一个对象的形状、颜色等。 但是线性变换后,语义信息丢失了。 这对我们解释识别过程带来一定的问题。 特征评价 对于特征分类能力的评价 (1)图形考察:盒状图 分布图 (2)分布模型评价 (3)统计推论检测 这些评价方法可为我们观察某些特征集合下的数据分布提供直观的指导信息 盒状图怎么画(1) 回顾:盒状图应用在此的目的是:评价特征用于分类的能力 因此,我们用来画盒状图的数据是 样本集中一个维度(特征)的数据 绘制步骤: 1)将n个数据由小到大排序。(由大到小也可以) 2)计算3个四分位数。 a. 中位数(第2个四分位数,Q2) 如果n为奇数,则排序后,第(n+1)/2位是中位数。 如果n为偶数,则排序后,第n/2与第(n+1)/2位数的平均值, 为中位数。 b. 不计Q2,计算前半个数据集的中位数Q1。 c. 不计Q2,计算后半个数据集的中位数Q3。 3)3个四分位数、最小值、最大值共5个数字就可以绘制盒状图了。 盒状图怎么画(2) 盒状图怎么画(3) 盒状图怎么画(4) 如何用盒状图观察特征的分类能力 软木塞数据集,三个类别在两个特征上的盒状图 分布图 数据在特征空间分布上存在大量重叠,会对分类造成困难 分布图描绘了数据类别的拓扑结构,可直观获取特征间分布重叠状况 分布模型评价 给定数据集(特征向量的集合),其分布是否与给定的分布模型吻合 用适当的分布模型描述数据集,就可以根据已知样本集为分布模型估计参数,确定后的模型可用作分类或聚类。 Kolmogorov-Smirnov检测 K-S检验(1) 经验分布函数 给定N个由小到大排序的数据X1….XN 其中n(i)是小于等于Xi的对象个数 Kolmogorov-Smirnov检测 K-S检验(2) Kolmogorov-Smirnov检测 K-S检验(3) 统计推论检测 量化特征的分类能力

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档