- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索过程 循序向前选择法(Sequential Forward Selection,SFS) 缺点 单个特征区分力很差,但两个特征结合区分力强,在此情况下,SFS失效 最优子集中的每个特征分别单独考虑时,并不一定都为最优 搜索过程 循序向前选择法:实例——卫星图像分析 搜索过程 循序向后选择法(Sequential Backward Selection,SBS) 首先,选择所有d个特征 然后,从所有特征中任意去掉一个形成d个候选的d-1特征集,从中选出最好的一个 再从上一步得到的d-1特征集中任意去掉一个特征形成d-1个d-2特征集,从中选出最好的一个 该过程直到特征集中的特征个数到达预先设定的值时停止 搜索过程 循序向后选择法(Sequential Backward Selection,SBS) 因为SBS考虑的特征数目大于等于期望的特征数目,所以SBS通常比SFS需要更多的选择准则计算 搜索过程 循序向后选择法:实例——卫星图像分析 搜索过程 其他搜索过程 单个最佳特征子集 直接搜索最佳的单个特征(每次仅用一个特征,计算选择准则),用它们构成的集合作为特征选择结果 虽然简单,但是往往不可靠 只有当各特征之间完全独立的情况下能找到最优特征子集 … 选择准则 理想方法 用选定的特征子集表示训练样本,训练分类器,然后测试该分类器的泛化误差(如采用交叉验证等方法) 因为对每个特征子集都需要训练一个分类器,因此计算量很大 简化方法 定义某种类内距离度量来描述采用某个特征子集时的类可分度 不需要为每个特征子集训练一个分类器,因此计算量较小 选择准则 类内距离 类内散布度 选择准则 类内距离 均方距离 小结 误差与维度 误差随特征数增加而减小,而当特征个数增加到某一个临界点后,继续增加反而会导致分类器的性能变差——“维度灾难” 解决“维度灾难”的办法:降低维度的方法 特征组合 把几个特征组合在一起,形成新的特征 特征选择 选择现有特征集的一个子集 小结 降维方法的选择依赖于应用领域以及训练数据的基本情况 特征组合降维有可能提供较好的分类能力,但是新的特征往往丧失具体的物理意义 特征选择能够在降低维度的同时保留特征的物理意义 小结 特征组合降维方法 主成分分析(PCA) 寻找用来有效表示数据的投影 无监督 线性判别分析(LDA) 寻找用来有效分类的投影 有监督 小结 特征选择降维方法 搜索过程 循序向前选择法SFS 循序向后选择法SBS 选择准则 泛化误差 类内距离度量 * * e_k称为第k个PC的负荷loading UCI数据集 * * * * * 奇异值分解(SVD) PCA中对散布矩阵S的本征值分解计算量较大,如特征向量维度较高,直接对S进行本征值分解十分困难。 例如对图像的PCA分析: 图像: 散布矩阵: 的矩阵本征值分解? 空间复杂度和时间复杂度均无法接受! 奇异值分解(SVD) 解决方案:不直接对S进行本征值分解,而利用SVD对一个较小的矩阵进行本征值分解 SVD定理 设A是一个秩为n的 矩阵,则存在两个正交矩阵以及对角阵满足其中: 为矩阵 和 的非零本征值, 和 分别为 和 对应于 的本征向量。该分解称为矩阵A的奇异值分解(Singular Value Decomposition,SVD), 为A的奇异值。 奇异值分解(SVD) 推论 利用SVD简化S的本征值分解 散布矩阵 其中, 令若 ,则对R进行本征值分解要比直接对S进行本征值分解快。 例如,对绝大多数图像训练集来讲,图像的像素数要远远大于训练集中的样本个数,即 奇异值分解(SVD) 对R进行本征值分解 本征值: 本征向量: 根据 ,得出 的本征向量为 矩阵的本征值分解 矩阵的本征值分解 Fisher线性判别分析 PCA方法寻找用来有效表示数据(从最小平方误差的意义上讲)的主轴方向 线性判别分析(linear discriminant analysis, LDA)寻找的是用来有效分类的方向 Fisher线性判别分析 假设 n个d维样本 ,他们分属两个类别 和 其中,n1个属于类别 的样本组成样本子集 , n2个属于类别 的样本组成样本子集 单位向量w方向上的投影 投影点 根据源数据的类别也分成两个子集 和 目标:投影到w上后,投影点更易分类 不同类的投
原创力文档


文档评论(0)