- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第十一章半监督学习半监督学习(Semi-SupervisedLearning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。许多实例采用无监督标记来提高预测精度和学习算法的速度;通过引入加权系数动态调整无类标签样例的影响,提高了分类准确度;建立每类中具有多个混合部分的模型,使贝叶斯偏差减小。半监督学习使用大量的未标记数据,同时使用标记数据来进行模式识别工作。1
11.1未标记样本 如果图中有一个样本恰好位于正负实例中间,可以在图中看到大体上类似于随机猜测。如果观察到图中的未标记样本,则可以基于聚类假设来利用未标记样本,由于待预测样本与正例样本通过未标记样本的“撮合”聚集在一起,与相对分离的反例样本相比,可以将该样本判定为正例。2
11.1未标记样本?3
11.2半监督学习方法半监督学习可进一步划分为纯半监督学习和直推学习,前者假设训练数据中的样本不显著,而后者则假定学习过程中所考虑的未标记样本恰好是待预测数据,学习目的就是在这些未标记样本中获得最优泛化性能。4
11.2.1生成式方法??5
11.2.1生成式方法6???(11-2)?
11.2.1生成式方法7???
11.2.1生成式方法8生成式方法简单,易于实现,在有标记数据极少的情形下往往比其他方法性能更好。然而,此类方法中模型假设必须准确,即假设的生成式模型必须与真是数据分布吻合,否则未用未标记数据反倒会降低泛化性能。现实任务中,除非拥有充分可靠的领域知识,否则往往很难事先做出准确的模型假设。
11.2.2半监督SVM半监督支持向量机(Semi-SupervisedSupportVectorMachine,简称S3VM),S3VM是一种在半监督学习上推广的广义支持向量机。在不考虑未标记样本的情况下,支持向量机尝试寻找最大间隔划分超平面。在考虑未标记样本后,S3VM尝试寻找能够划分开两类有标记样本,且可以通过低密度区域分割将它们分开的超平面,如图所示,其中“+”和“-”分别表示有标记的正例和反例,蓝色点表示未标记样本。9
11.2.2半监督SVM10在传统的支持向量机有监督学习中,我们试图找到超平面的分割点,使得两个半监督学习点之间的距离很小。S3VM考虑了超平面通过区域的情况,S3VM的主要思想是将每个标记样本分为阳性样本和阴性样本。首先利用标记样本集和初始支持向量机进行训练,然后利用机器对未标记样本进行标记,使所有样本稳定然后采用局部迭代搜索最优策略。
11.2.3图半监督学习基于图的半监督学习方法是一种利用数据集的图结构进行学习的技术。其主要思想是通过构建一个图来表示数据集,其中节点代表标记和未标记的数据点,边表示数据点之间的相似性或关联关系。通过赋予边权重来度量数据点的相似性,权重越大表示相似性越高。在该方法中,如果两个样本之间的相似度较高,就可以将它们映射到相应的节点上。通过给已标记的样本节点着色,未标记的样本节点不着色,可以观察到节点的颜色分布情况,从而进行半监督学习。11
11.2.3图半监督学习基于图的半监督学习方法通常包括以下步骤:1)构建图:根据数据集的相似性,构建一个图结构,其中节点表示数据点,边表示相似性关系。2)赋权重:为图中的边赋予权重,以度量数据点之间的相似性,常用的距离度量有欧几里德距离、马氏距离、切比雪夫距离等。3)标记节点:将已标记的样本节点着色,表示其已知类别信息。4)扩散过程:通过图的结构和节点的颜色信息,将标记信息扩散到未标记的节点上,以获得它们的预测标签。5)分类或回归:使用已标记和预测标记的节点进行分类或回归任务。12
11.2.4基于分歧的方法基于分歧的方法使用多学习器,而学习器之间的“分歧”的决策,就需要用到未标记数据。在某些应用任务中,一个数据集可能包含多个属性集,此时每个数据样本同时拥有多个特征向量描述;这里的每个属性集即被称为数据的一个“视图(View)”。基于分歧的半监督学习的起源、也是最著名的代表性方法是“协同训练法”,由于最初的设计是针对多视图数据的,所以也被看作是多视图学习的代表。协同训练法要求数据具有两个充分冗余且满足条件独立性的视图,“充分”是指每个视图都包含足够产生最优学习器的信息,此时对其中任一视图来说,另一个视图则是“冗余”的;同时,对类别标记来说这两个视图条件独立。13
11.2.4基于分歧的方法协同训练法的学习过程:首先分别在每个视图上利用有标记样本训练一个分类器,然后,每个分类器从未标记样本中挑选若干标记置信度(即对样本赋予正确标记的置信度)高的样本进行标记,并把这些“伪标记”样本(即其标记是由学
文档评论(0)