基于图的半监督学习方法综述.docVIP

下载本文档

36
0
约4.34千字
约 6页
2017-02-13 发布于北京
举报
版权申诉

基于图的半监督学习方法综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于图的半监督学习方法综述.doc

基于图的半监督学习方法综述　　摘要半监督学习是机器学习中结合监督学习和无监督聚类方法的一类学习方法。基于图的半监督学习凭借其直观性得到了半监督学习领域专家的青睐。本文对常用的半监督学习方法进行了介绍和阐述，介绍了基于图的半监督学习的发展现状，并对未来基于图的半监督学习的发展做出展望。　　关键词基于图的半监督分类机器学习图方法　　中图分类号：TP181 文献标识码：A 　　0引言　　基于图的半监督学习凭借其直观性也逐渐被更多的学者所研究和使用。本文主要介绍了目前使用较多的基于图的半监督学习的方法分类；介绍了基于图的半监督学习目前的研究成果及现状；最后给出基于图的半监督学习下一步更待研究的方向。　　1基于图的半监督学习方法分类　　1.1图的构造及正则化框架　　首先利用样本集X构造一个无向加权图G。图当中的每个顶点代表了样本集中的样本，图当中边的权值表示了样本对和之间的相似度；构造完图之后，基于图的学习方法通常假设样本标签在图中的分布是平滑的，并由此根据边的连接情况使已标记样本的类别标签在整个图上不断传播并达到最终完成对未标记样本的类别标签的预测。通常，样本对之间的相似度采用高斯核函数来计算。　　图模型构造好后，基于图的半监督学习算法需要定义一个函数f。我们将基于图的学习方法规范化，提出基于图的学习的正则化框架。对于已标记样本，令（f）为损失函数，用来调节函数f分类标签时预测标签与真实标签值之间的损失或误差；令（f）为目标函数的调整项，使标签分布在整个图上并且有足够的平滑性，通常采用引入正则项的方法来确保。一般而言，基于图的学习方法通常都利用图的拉普拉斯性质作为目标函数的调整项，以确保标签能够平滑的在整个图上传递。　　1.2基于图的半监督学习方法分类　　1.2.1标签传播算法　　在标签传播算法中，使用的损失函数为，其中表示预测标签概率，表示已标记样本的真实标签值，损失函数表示在标签传递的过程中应当使预测的已标记样本的标签与真实标签类别相同；在调整项中使用（f）=作为保障标签在整个图上的分布具有平滑性的调整项。　　1.2.2图的最小分割方法　　图的最小分割方法（graph mincut algorithm）是由Blum A在2002年提出的。它的主要思想是：在二分类问题中定义正标记样本作为源点（source），负标记样本作为汇点（sink），目标是：找到一个边集，使得删除该边集之后能够隔绝任意从源点到汇点的流量，并且最终找到的这个边集为最小边集。那些与源点连接的点被标记为正类，与汇点连接的点则被标记为负类。　　1.2.3调和函数方法　　基于高斯域（Gaussian fields）和调和函数（harmonic function）的方法，简称为调和函数方法，针对在图的最小分割方法中未考虑样本的分类概率的硬划分（hard classification）的问题，采用了软划分（soft classification）的方法，将样本的类别用取值连续的变量表示。　　1.2.4局部全局一致性算法　　Zhou等人在标签传播算法和调和函数方法的启发下，提出基于局部与全局一致性的方法（learning with local and global consistency），简称LGC算法。LGC算法的调整项采用了对称拉普拉斯矩阵，提高了分类的精度。保持局部一致性的目标就是要使该调节项最小。与调和函数的目标函数不同，LGC算法的损失项允许预测标签与真实标签之间有一定的误差，并会使这种误差最小化，使用这样的方式保持样本集的全局一致性。　　2基于图的半监督学习方法研究现状　　国外学者对基于图的半监督学习研究起步较早。Yang等人在2007年时首次提出了利用LPA算法进行英汉双语信息检索；Raghavan U则在同年用图方法进行网络社区发现，用空手道俱乐部网和美国大学橄榄球网的实验证明了其良好的检测效果；此外，在降维研究方面也有不少较为成熟的成果：2004年，Argyrious等采用kd树方法构造稀疏图，通过线性系统的迭代计算加速分类学习的速度，Delalleau等通过基于所选样本集的子集进行标记传播并利用所选样本与剩余样本的关联降低图拉普拉斯矩阵的大小提出了一种无参数且支持直推式学习的算法。　　我国在基于图的半监督学习的研究方向上起步较晚，但发展迅速取得了不少成果。一方面，对算法本身进行了深入研究和改进。例如：王雪松等人在原算法基础上提出了一种简洁的优化算法，通过使用k近邻图代替全连接图并且简化目标函数，减少了参数造成的误差影响；李明等人利用一种基于密度的快速聚类的方法对样本数据先聚类后进行标签传递，通过实验最终证明在分类效果上该算法与原算法相比速度大幅提高；Wa