- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Fisher线性判别式
前面讲过的感知器准则、最小平方和准则属于用神经网络的方法解决分类问题。下面介绍一种新的判决函数分类方法。
由于线性判别函数易于分析,关于这方面的研究工作特别多。历史上,这一工作是从R.A.Fisher的经典论文(1936年)开始的。我们知道,在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间行得通的方法,在高维空间往往行不通。因此,降低维数就成为解决实际问题的关键。Fisher的方法,实际上涉及维数压缩。
如果要把模式样本在高()维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。另外,即使样本在高维空间里聚集成容易分开的群类,把它们投影到一条任意的直线上,也可能把不同的样本混杂在一起而变得无法区分。也就是说,直线的方向选择很重要。
在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher法要解决的基本问题。这个投影变换就是我们寻求的解向量。
1.线性投影与Fisher准则函数
在两类问题中,假定有个训练样本其中个样本来自类型,个样本来自类型,。两个类型的训练样本分别构成训练样本的子集和。
令:, (4.5-1)
是向量通过变换得到的标量,它是一维的。实际上,对于给定的,就是判决函数的值。
由子集和的样本映射后的两个子集为和。因为我们关心的是的方向,可以令,那么就是在方向上的投影。使和最容易区分开的方向正是区分超平面的法线方向。如下图:
图中画出了直线的两种选择,图(a)中,和还无法分开,而图(b)的选择可以使和区分开来。所以图(b)的方向是一个好的选择。
下面讨论怎样得到最佳方向的解析式。
各类在维特征空间里的样本均值向量:
, (4.5-2)
通过变换映射到一维特征空间后,各类的平均值为:
, (4.5-3)
映射后,各类样本“类内离散度”定义为:
, (4.5-4)
显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher准则函数:
(4.5-5)
使最大的解就是最佳解向量,也就是Fisher的线性判别式。
2.求解
从的表达式可知,它并非的显函数,必须进一步变换。
已知:,, 依次代入(4.5-1)和(4.5-2),有:
, (4.5-6)
所以:
(4.5-7)
其中: (4.5-8)
是原维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,越大越容易区分。
将(4.5-6)和(4.5-2)代入(4.5-4)式中:
(4.5-9)
其中:, (4.5-10)
因此: (4.5-11)
显然: (4.5-12)
称为原维特征空间里,样本“类内离散度”矩阵。
是样本“类内总离散度”矩阵。
为了便于分类,显然越小越好,也就是越小越好。
将上述的所有推导结果代入表达式:
—— 广义Rayleigh商 (4.5-13)
式中和皆可由样本集计算出。
用lagrange乘子法求解的极大值点。
令分母等于非零常数,也就是:。
定义lagrange函数:
(4.5-14)
对求偏导数:
令得到:
(4.5-15)
从上述推导(4.5-10)~(4.5-12)可知,是维特征的样本协方差矩阵,它是对称的和半正定的。当样本数目时,是非奇异的,也就是可求逆。
则: (4.5-16)
问题转化为求一般矩阵的特征值和特征向量。令,则是的特征根,是的特征向量。
(4.5-17)
式中:
是一个标量。所以总是在方向上。将(4.5-17)代入到(4.5-15),可以得到:
其中,是一个比例因子,不影响的方向,可以删除,从而得到最后解:
(4.5-18)
就使取得最大值,可使样本由维空间向一维空间映射,其投影方向最好。是一个Fisher线性判断式。
讨论:
如果,,则样本线性不可分。
,未必线性可分。
不
文档评论(0)