人工智能基础及应用(微课版) 课件 第5章 特征选择与提取概述.pptx

人工智能基础及应用(微课版) 课件 第5章 特征选择与提取概述.pptx

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

5.1特征选择与提取概述业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征对于提高机器学习的性能起着至关重要的作用。在机器学习时,通常不会直接拿着观察到的原始数据进入训练学习过程,绝大多数的学习过程都是把原始数据预先处理一下,获得特征数据,然后对特征数据进行训练学习。特征提取和特征选择都是为了获取有效特征信息、压缩特征空间,即:从原始特征中找出最有效的信息。5.2降维什么是降维?降维就是通过保留一些比较重要的特征,去除一些冗余的特征,减少数据特征的维度。为什么要降维?降维存在一定的信息损失,但控制在一定的范围内,不仅可以让算法的运算速度更快,节省大量的存储空间、运行时间和成本,还可以使数据可视化。降维的使用条件特征维度过大某些样本数据不足特征间的相关性比较大提高准确率降维目的减少数据量数据可视化降维方法分几类?0201直接降维间接降维直接降维用特征选择的方法从原始特征数据集中选择出重要的特征数据,构成特征子集,没有改变原始的特征空间。原始特征数据集特征子集谢谢!5.3特征提取什么是特征提取?特征提取是对属性进行重新组合,获得一组反映事物本质的少量的新的属性的过程,也就是通过映射或变换的方法把高维的原始特征变换为低维的新特征,新的特征包含了原有特征的有用信息。1可分性1良好特征的特点可靠性11独立性数量少01主成分分析法特征提取常用方法02线性判别分析法03典型相关分析法一、主成分分析(PCA)PCA算法是一种常用的无监督学习方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。主成分的个数通常小于原始变量的个数,可以去除冗余、降低噪音,达到降维的目的。1、主成分分析原理主要思想:将n维特征映射到k维上降维方法:基于最大投影方差p维向量X到一维向量F的一个线性映射表示为?将p维原始向量X线性映射到k维新向量F,k≤p??采用PCA算法实现降维,通常寻求向量的线性组合Fi,应满足:每个主成分的系数(1≤k≤p)的平方和为1??方差越大信息越多主成分之间相互独立,协方差Cov(Fi,Fj)为0?(i≠j;i,j=1,2,…,p)?主成分的方差依次递减,≥≥…≥2、主成分分析步骤求自变量(原始数据)的协方差矩阵?01求协方差矩阵的特征值?02分别求出特征根所对应的特征向量03给出恰当的主成分个数04计算所选的k个主成分的得分053、主成分分析中的贡献率贡献率:第i个主成分的方差在全部方差中所占的比重?累计贡献率:前k个主成分的综合能力,用这k个主成分的方差和在全部方差中所占的比重?例6-1将下列二维数据降为一维数据。XY2.52.60.50.72.22.92.02.23.13.02.32.72.11.61.21.11.51.61.10.9解题步骤:X去均值Y去均值0.650.67-1.35-1.230.350.970.150.271.251.070.450.770.25-0.33-0.65-0.83-0.35-0.33-0.75-1.03分别计算X和Y的均值,得:?将原数据去均值化,得新数据:计算协方差矩阵,得:?计算协方差矩阵的特征值,得:?计算特征值对应的特征向量,得:?将特征值按照从大到小的顺序排序,选择其中最大的k个?将样本点投影到选取的特征向量上,得降维后的数据:降维数据-0.93251.8157-0.9585-0.3016-1.6296-0.87490.08161.05230.47911.2684谢谢!5.3特征提取二、线性判别分析(LDA)线性判别分析是一种经典的线性学习方法,也是一种有监督的降维方法。1、线性判别分析原理主要思想:将高维的样本投影到最佳鉴别矢量空间降维目标:类间离差最大,类内离差最小2、线性判别分析步骤:假设用来区分二分类的直线(投影函数)为:??类别的原始中心点(均值)为:?类别投影后的中心点为:?类别投影后,类别点之间的分散程度(方差)为:??LDA投影到后的目标优化函数为:带入,将分母化为:????同样的将分子化为:??目标优化函数可以化成:用拉格朗日乘子法,将分母限制为长度为1,得到:??如果可逆,那么将结果两边都乘以得:?则为矩阵的特征向量?因为??谢谢!5.4特征选择什么是特征选择?特征选择是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。特征选择与特征提取对比vs相同点不同点都是减少特征集中的属性(或特征)的数目特征提取:改变特征空间特征选择:不改变特征空间特征选择的目的简化模型改善性能增强理解改善通用性特征选择的考虑因素特征是否分散特征与目标的相关性特征选择的步骤验证过程产生过程停止准则评价函数特征选择常用方法01

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档