Google图学习技术揭秘.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 Google图学习技术揭秘 近些年来,机器学习技术取得了巨大的进步,使得计算机系统能够解决复杂的现实问题。其中一项先进技术就是由Google研究院的Expander组开发的大规模、基于图的机器学习平台。 近些年来,机器学习技术取得了巨大的进步,使得计算机系统能够解决复杂的现实问题。其中一项先进技术就是由Google研究院的Expander组开发的大规模、基于图的机器学习平台。基于图的机器学习是一款功能强大的工具,被广泛用于我们日常接触到的Google产品和功能,比如用于收件箱的提示功能和Allo的智能消息,或是用于深度神经网络来支持GooglePhotos的最新图像识别系统。    最少监督的学习 近期大多数在深度学习和机器学习领域取得的进展,都可以归因于较好预估能力的模型,这些模型是在大量有标记数据集上训练得到,通常有上百万的训练样本。由于需要监督式的训练机器学习模型,即用人工标记过的训练数据,因此这种方法也被称为“监督式学习”。(相反的,有些机器学习方法直接处理原始数据,不存在监督,它们被称为非监督式学习。) 然而,待完成的任务越复杂,则越难获取足够多的高质量标记数据。每遇到一个新问题,往往需要投入大量的人力和时间来标记数据。这促使了Expander团队投入研发新的技术来驱动大规模的机器学习应用,以尽可能削减人工监督。 Expander团队的技术是受到人类概况和推演的启发,将已知的学问(已标记数据)与新奇的、不熟知的观看内容(未标记数据)相联系。这个强大的技术称作“半监督式学习”,它可以让我们利用稀疏的训练数据搭建系统。基于图的半监督式学习的主要优势之一就是(a)它可以在学习阶段对已标记的数据和未标记的数据共同建模,利用数据的底层结构,(b)可以便捷地组合多类信号(例如原始特征与学问图谱的关系信息相结合)形成一个独立的图表示,基于此来学习。这有别于与其它的传统机器学习方法,比如神经网络方法,后者是先用标记的训练数据和特征训练得到一个模型,然后将模型用于预估未标记的数据。 图学习的原理 在其核心部分,Expander的平台构建了数据的一个多图表达,各个节点对应于物体和概念,相似的概念节点之间有边相连,因此它将半监督式学习与大规模基于图的学习结合在一起。图往往包含了标记数据(输出类别或标签已知的节点)和未标记数据(没有标签的节点)。接着,Expander的框架在图上传播标签信息,用半监督式的学习方法给全部节点打上标记。 然而,说起来简单做起来难!我们需要: (1)用最少的监督来有效率地学习(即极少量的标记数据); (2)处理多种形态的数据(即数据的异形表达和多种数据源); (3)解决高维数据的预估难题(高维、复杂的输出空间),数据可能还含有噪音。 整个学习过程中的关键成分就是图与节点的连接方式。图的外形、尺寸千变万化。我们留意到,用多种数据源的不同表达形式组合而成的信息构建多图结构,这样的效果比较好(比如,Allo的PhotoReply采用了图片像素、物体类别和对话反馈信息等)。Expander团队的图学习平台基于数据间推想或已知的关系直接自动地生成关系图。数据可以是结构化的(如关系型数据)或是非结构化数据(如,从原始数据中提取的稀疏或稠密特征表达)。 为了理解Expander的系统如何学习,我们来看一下下图所示的例子。 图中有两类节点:“灰色”表示未标记数据,彩色的是标记过的数据。节点之间的关系用边来表示,边的粗细表示关系的强弱。我们可以这样来刻画这个半监督式学习问题:预估图中每个节点的颜色(“红色”或“蓝色”)。留意,图的结构和节点颜色需要依据实际任务而定。举个例子,在我们最近发表的一篇文章中,我们为收件箱智能回复功能设计的图的节点是邮件信息,颜色表示用户回复的语义类别(比如,“是的”,“好棒”,“有意思”)。 Expander图学习框架把这类标记问题当做优化问题来处理。在最简洁的层面,它学会依据每个节点的周边节点颜色和连接强度来给全部节点指定颜色。一种简洁的方法是一次性处理全部的节点数据——这种方法无法扩展到大图上。我们可以对此问题做优化,将已标记节点的颜色信息传播到它们的邻居节点,然后重复这个过程。在每一步中,未标记节点会依据其邻居节点中的颜色标记上颜色。我们可以反复迭代这个过程,直到全部的节点都被打上标记。这个方法的效率特别高,在本例中,迭代的结果最终是收敛的。 基于图的半监督式学习 实际上,我们基于图结构设计了复杂的优化函数,其中包括了额外的信息和限制,

文档评论(0)

183****3081 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档