- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
监督学习
?
机器学习中最常见的方法是监督学习。
在监督学习中,我们得到一组标记数据(X,Y),即(特征,标签),我们的任务是学习它们之间的关系。但是这种方法并不总是易于处理,因为训练通常需要大量数据,而标记数百万行数据既耗时又昂贵,这就对许多不同任务的训练模型造成了瓶颈。
以这种方式训练的模型通常非常擅长手头的任务,但不能很好地推广到相关但是非相同领域内的任务。因为网络只专注于学习X的良好表示以生成之间的直接映射X和Y,而不是学习X的良好通用表示,所以无法转移到类似的其他任务。
这种学习通常会导致对概念的非常肤浅的理解,即它学习了X和Y之间的关系(它优化了网络以学习这种映射),但它不理解X的实际含义或它背后的含义。
自监督学习
?
自监督学习也适用于(特征、标签)数据集,即以监督的方式,但它不需要人工注释的数据集。它的基本思想是屏蔽/隐藏输入的某些部分,并使用可观察的部分来预测隐藏的部分。正如我们将在下面看到的,这是一个非常强大的想法。但是我们不称其为无监督学习是因为它仍然需要标签,但不需要人工对其进行标注。
SSL的优势是如果我们手头有大量未标记的数据,SSL的方式可以让我们利用这些数据。这样模型可以学习更强大的数据底层结构的表示,并且这些表示比监督学习中学到的更普遍,然后我们可以针对下游任务进行微调。
需求和动机
?
在过去的10年里,深度学习取得了长足的进步。几年前被认为计算机似乎不可能完成的任务(例如机器翻译、图像识别、分割、语音识别等)中,已经达到/超过了人类水平的表现。在经历了十年的成功故事之后,深度学习现在正处于一个关键点,人们已经慢慢但肯定地开始认识到当前深度学习方法的基本局限性。
人类和当前人工智能的主要区别之一是人类可以比机器更快地学习事物,例如仅通过查看1-2张照片来识别动物,只需15-20小时即可学会驾驶汽车。人类如何做到这一点?常识!虽然我们还不知道常识是如何产生的,但却可以通过思考人类如何实际了解世界来做出一些有根据的猜测:
人类主要通过观察学习,很少通过监督学习。从婴儿出生的那一刻起(或者之前),它就不断地听到/看到/感觉到周围的世界。因此,发生的大部分学习只是通过观察。
人类可以利用随着时间的推移获得的知识(感知、运动技能、基础物理来帮助导航世界等),而当前的SOTA机器却不能。
自监督学习通过学习从未屏蔽部分预测数据的屏蔽部分来模仿的人类这部分的能力。
NLP与CV中的SSL
?
NLP中的一般做法是屏蔽一些文本并使用附近的文本对其进行预测。这种做法已经有一段时间了,现在SOTA模型都是以这种方式进行训练,例如BERT、ROBERTAXLM-R、GPT-2,3等。在NLP中应用这种技术相对容易,因为屏蔽词的预测只能取离散值,即词汇表中的一个词。所以我们所要做的就是在词汇表中生成一个超过10-20k个单词的概率分布。
但是在计算机视觉方面,可能性是无限的。我们在这里处理高维连续对象,例如,一个10X10的屏蔽图像块可能在单个通道上获取2551??值,对于动起来的视频复杂性甚至更高(同样的逻辑也适用于语音识别)。与NLP不同,我们无法对每一种可能性做出预测,然后选择更高概率的预测。这似乎是计算机视觉中一个棘手的问题。
孪生网络/联合嵌入架构
?
这里把图像识别作为我们运行的任务。SSL会屏蔽一些随机图像块,然后尝试预测这些被屏蔽的块。由于我们无法对图像块中的每一种可能性进行预测,所以我们只能使用相似度匹配。
联合嵌入架构。这两个神经网络可以完全相同,也可以部分共享,也可以完全不同。
这个想法是训练一种孪生网络来计算两张图像之间的相似度,同时保证以下结果-
相似/兼容的图像应该返回更高的相似度分数。
不同/不兼容的图像应返回较低的相似度分数。
第1点很容易实现:可以用不同方式增强图像,例如裁剪、颜色增强、旋转、移动等。然后让孪生网络学习原始图像和增强图像的相似表示。在将模型输出与固定目标进行比较的意义上,我们不再进行预测建模,因为现在比较的是模型的两个编码器的输出,这使得学习表示非常灵活。
但是第2点很麻烦。因为当图像不同时,我们如何确保网络学习不同的嵌入?如果没有进一步的激励,无论输入如何,网络都可以为所有图像学习相同的表示。这称为模式崩溃。那么如何解决这个问题?
对比学习?
?
基本思想是提供一组负样本和正样本。损失函数的目标是找到表示以最小化正样本之间的距离,同时最大化负样本之间的距离。图像被编码后的距离可以通过点积计算,这正是我们想要的!那么这是否意味着计算机视觉中的SSL现在已经解决了?其实还没有完全解决。
为什么这么说呢?因为图像是非常高维的对象,在高维度下遍历所有的负样本对象是几乎不可能的
文档评论(0)