基于自训练大间隔近邻人脸识别.docVIP

下载本文档

18
0
约4.42千字
约 8页
2018-08-30 发布于福建
举报
版权申诉

基于自训练大间隔近邻人脸识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于自训练大间隔近邻人脸识别

基于自训练大间隔近邻人脸识别　　摘要：人脸图像是潜在高维空间的低维流形。流行的本质上表现为特征变化的连续性缓慢性，也表现在空间的相邻性。本文提出了一种基于自训练的大间隔近邻方法，通过自训练迭代，使类内样本尽可能紧凑，类间样本保持一定大距离，在邻域内标记无标记样本。实验证明，该方法在小样本情况下拥有相对较好的识别度。　　关键词：半监督自训练间隔人脸识别　　中图分类号：TP391.41 文献标识码：A 文章编号：1007-9416（2015）02-0000-00 　　人脸图像是以距离、姿势、光照强度等为参数的高维的数据空间。高维空间的数据结构或极限结构式是难以确定的。但是，根据随机变量中心极限定理，随着样本数的增加，样本分布趋向高斯分布或低维空间中的投影组合。高维数据变量间存在相关性，大部分数据变量可以用少数变量来组合表示，即高维数据存在冗余性，本征维数往往是低维的，人脸图形即是潜在高维空间的低维流形，流行在本质上表现为特征变化的连续性缓慢性，而这种缓慢变化的特征又表现在空间的相邻性[1]。本文提出了一种基于自训练的间隔近邻方法，该方法相对于大间隔近邻方法，加强了对无标记样本的利用，并且通过自训练迭代和数据剪辑，能够在一定程度上，去除误标样本，改善了分类质量，在小样本的人脸识别中拥有较高的识别度。　　1 距离与间隔　　最大的类间距离和最小的类内距离是学习机追求的性能目标。间隔的概念源于V. N.Vapnik提出的支持向量机理论，用最大类间间隔确定最优可分的超平面[2]。Shawe Taylor 等推出了基于边缘的泛化不等式，证明了间隔和泛化能力是密切相关的，使其变为设计闭凸集的边缘最大化的问题[3]。在解释Adaboost的泛化误差时，Schapire等推导出了一个泛化误差的上界，这个上界和训练样本的间隔分布、训练样本数目和弱分类器所在空间的复杂度有关，并且推断出Adaboost泛化能力不取决于训练误差，而是和训练样本最后收敛的间隔分布相关，训练后的样本的间隔分布越大，所训练的分类器将获得更好的泛化性能[4]。　　间隔是决策置信度的几何度量，样本与决策边界的距离越远，样本分类的可信程度越高，其鲁棒性也较好。按照K.Crammer.R论述，间隔可分为样本间隔和假设间隔[5]：假设间隔是指保持样本标签不变的情况下，决策面能够移动的最大距离，典型算法有Boost，Relief等；样本间隔是指样本与决策边界的距离，典型算法有支持向量机等。间隔思想广泛应用于各种算法或模型中。EBBoost[6]，基于最大间隔的贝叶斯网络[7]，基于最大间隔的BP神经网络[8]等不断的被提出。Kilian Q. Weinberger等提出的大间隔近邻算法就是其中的典型，该算法是将样本映射到一个新的空间，使同类样本的距离尽可能的小不同类别样本之间保持一定的大的间隔，再利用k近邻进行分类操作[9]。在实践应用中，初始的已标记数据的训练集数量较小，难以训练出高质量的分类器，因此我们提出了一种基于自训练的大间隔近邻方法，加强未标记数据集的利用，改善了分类质量。　　2 基于自训练的大间隔近邻　　在机器学习的实际应用中，标记样本是少量的，人工标记样本的工作艰苦缓慢，代价昂贵；而更易于获取的、大量的未标记样本更接近数据的整体分布，更能反映整体数据的分布信息。无监督学习其准确度总是较有监督学习的效果较差。因此共同有效地利用标记数据和未标记数据是提高学习性能的合理方法，半监督学习即是这样的方法。半监督算法和未标记数据的联系是建立在以下的假设条件下的。　　流行假设：一个很小的局部邻域内的样本具有相似的性质或者变化及其缓慢；聚类假设：一个簇里的样本很有可能属于同一类别在生成式模型中；平滑假设：如果样本在高密度区域很接近，那么对应的输出是可能相关的或接近的。自训练方法是一种典型的半监督算法：在初始训练集训练一个基本分类器，用基本分类器标记可信度较高的无标记样本，再将新标记的样本加入到初始训练集中，使用扩展后的训练集来重新训练分类器，重复以上过程直到迭代条件终止。　　基于自训练的间隔邻居算法：　　（1）用标记样本作为初始训练集，采用间隔近邻法训练出弱分类器，得到半正定矩阵M和和映射L。数据集，表示的是m个已知标签的样本，其中XiRd为d维数样本，Yi为其类别。　　（2）在初始训练集中做数据剪辑，样本距离为D（I，j）=（Xi-Xj）TM（Xi-Xj），若标记样本距离最近的两个样本是不同类别，则去除该样本。　　（3）将经数据剪辑后的标记样本添加到未标记样本集中，采用样本距离D（I，j）=（Xi-Xj）TM（Xi-Xj）。任选未标记样本Ui计算距离最近的两个样本。如果两个样本都是同类别标记样本，则此Ui即为该类别。其他情况不采