- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
LDA线性判别分析讲述
Linear Discriminant Analysis(LDA)
线性判别分析
目录
LDA扩展
LDA简介
线性判别分析(linear discriminant analysis),也叫Fisher线性判别分析,是特征提取中最为经典和广泛使用的方法之一。LDA是由R.A Fisher于1936年提出来的方法【1】,主要是用来解决生物问题( Taxonomic Problems )的分类问题。它是在1996年由Belhumeur【2】引入模式识别和人工智能领域的.
R.A Fisher
(1890-1962)
LDA思想
线性判别分析(LDA)的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。
两类的线性判别问题
两类的线性判别问题可以看作是把所有的样本都投影到一个方向上,然后在这个一维空间中确定一个分类的阈值。过这个阈值点且与投影方向垂直的超平面就是两类的分类面。
如何确定投影方向?
两类的线性判别问题
从直观上看,右图的分类效果比较好,同类之间样本聚集,不同类之间相聚较远
训练样本集:X={x1……..xN},每个样本是d维向量,其中w1类的样本是H1={x11……..xN1}, w2类的样本是H1={x12……..xN2},寻找一个投影方向w(d维向量),
两类的线性判别问题
定量分析:
投影以后样本变成: i=1,2….N
原样本每类样例的均值向量: ( i=1,2)
投影后每类样例的均值: 投影后的均值就是样本中心 点的投影
什么是最佳直线(W)?
1.能够是投影后的两类样本的中心点尽量的分离的直线是
好的直线,定量表示: J(w)越大越好,但是只考虑J(w)是不行的
两类的线性判别问题
如左图所示,样本点均匀分布在椭圆里,投影到横轴x1上时能够获得更大的中心点间距J(w),但是由于有重叠,x1不能分离样本点。投影到纵轴x2上,虽然J(w)较小,但是能够分离样本点。因此我们还需要考虑样本点之间的方差,方差越大,样本越分散,样本点越难以分离
两类的线性判别问题
散列值(scatter),几何意义是样本点的密集程度,值越大,越分散,值越小,越集中。
投影前
类内离散度矩阵:
总类内离散度矩阵:Sw=S1+S2
类间离散度矩阵:
投影后:
类内离散度:
总类内离散度:
类间离散度:
两类的线性判别问题
我们希望寻找的投影方向使投影以后两类尽可能分开,而各类内部又尽可能聚集,这一目标可以表示成
Finsher 准则函数
目标是求得是上式最大的
投影方向w
JF(w)是广义的Rayleigh熵
两类的线性判别问题
当Sw非奇异时,求解转化为Sw^-1Sb的特征值问题,使J(w)最大的变换矩阵W由Sw^-1Sb的特征值所对应的特征向量组成
多类的线性判别问题
训练样本集:X={x1……..xN},每个样本是d维向量,分别属于c个类别
从类内离散度和内间离散度来考虑:
(假设样本是二维的,从几何意义上考虑)
多类的线性判别问题
最后还归结到了求矩阵的特征值上来了。首先求出 的特征值,然后取前K个特征向量组成W矩阵即可。
注意:由于 中的 秩为1,因此 的秩至多为C(矩阵的秩小于等于各个相加矩阵的秩的和)。由于知道了前C-1个 后,最后一个 可以有前面的 来线性表示,因此 的秩至多为C-1。那么K最大为C-1,即特征向量最多有C-1个。
多类的线性判别问题
实例:
将3维空间上的球体样本点投影到二维上,W1相比W2能够获得更好的分离效果。
PCA选择样本点投影具有最大方差的方向,LDA选择分类
文档评论(0)