- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能迁移学习在自然语言处理中的应用.PDF
人工智能 |迁移学习在自然语言处理中的应用
原创:Prajjwal英特尔开发人员专区昨天
通用语言建模
在相当长的时间里,人们一直将迁移学习应用于计算机视觉 (CV) 领
域,而且最近几年也取得了显著的成果。执行一些任务时,我们甚至
能超越人类准确度水平。最近,很少能看到无需预训练权重就能输出
顶尖结果的模型实施情况。事实上,人们生产它们时,通常使用迁移
学习或某种微调的方法。迁移学习在计算机视觉领域产生了巨大影响,
为该领域的发展作出了巨大贡献。
到目前为止,迁移学习仅限于计算机视觉,但最新研究表明,迁移学
习的影响几乎无处不在,其中包括自然语言处理 (NLP) 和强化学习
(RL)。最近的几篇论文表明,迁移学习和微调在 NLP 中的使用效果
不错。
最近,OpenAI 还举办了强化学习竞赛 retro 竞赛,参赛者的挑战是
创建代理,在玩游戏时不能接触环境,而是利用迁移学习进行训练。
现在,我们可以充分挖掘这种方法的潜能。
图 利用过去的经验学习新事物 (强化学习中的新环境)
1.
此前的研究涉及计算机视觉领域中的增量学习,对模型进行了概括,
因为这是确保神经网络的学习保持稳定的最重要因素之一。一篇旨在
以此为基础的论文是 《面向文本分类的通用语言模型微调》。
文本分类是 NLP 的重要组成部分,它与现实生活场景密切相关,例
如机器人、语音助理、欺诈或垃圾邮件检测、文档分类等等。由于我
们处理的是语言模型,因此这项技术的用途十分广泛,几乎可以扩展
至所有任务。本文的作者进行的是文本分类。到目前为止,大部分学
术研究仍然用嵌入来训练类似 word2vec 和 GloVe 这样的模型。
嵌入的局限性
词嵌入是单词的密集表示。嵌入通过转换为张量的真实数字完成,这
些数字将被输入到模型中。在模型中,需要用特定顺序 (状态化)排
序,这样模型才能学会词语和语境之间的语法和语义关系。
图 不同数据类型的可视化
2.
进行可视化时,语义相近的单词彼此之间的嵌入也会更加紧密,这样
每个单词都会有不同的向量表示。
词汇表中不常见词
处理数据集时,我们通常会遇到生僻词,因为内存中保存的词汇量有
限。
图 令牌化。这些词都在词汇表中,而且都是通用词汇,但如果用嵌
3.
入,就无法有效地处理类似这样的令牌。
对出现频率较小的词语,模型很难弄清楚它的词义,因此创建了一个
词汇表来解决这一问题。Word2vec 无法处理未知单词。如果模型不
认识这个单词,就无法确切地构造它的向量,因此它必须随机地进行
初始化。关于嵌入,常见的问题有:
处理共享表示
这种表示的另一个不足之处是子词之间没有共享表示。英语中的前缀
和后缀通常会为所有词添加一个共同的含义 (比如 和
“better” “faster”
中的比较级 -er)。由于每个向量是独立的,因此不能完全理解词语
之间的语义关系。
共现统计
分布式词向量模型能够捕获词语中共现统计的某些方面。在单词共现
数量上训练的嵌入可以捕获语义字之间的相似性,所以可以根据词义
相似性任务进行评估。
如果某种特定语言模型采用 char-based 输入,但这种输入无法从预
训练中受益,那么就需要进行随机嵌入。
支持新语言
如果遇到其他语言,使用嵌入将无法确定模型的稳定性。使用新语言
时,需要使用新的嵌入矩阵,但这些矩阵无法从参数共享中受益,因
此模型不能执行跨语言任务。
嵌入可以串级,但仍然必须从头开始训练模型;预训练的嵌入将被视
为固定参数。这样的模型在增量学习中没有任何作用。
计算机视觉已经表明,hypercolumn 和其他常用的训练方法相比,并
不实用。在 CV 中,像素的超列 (hypercolumn) 是该像素上所有卷
积网络单元的激活矢量。
图 卷积网络中的超列
4.
平均随机梯度法权重下降的长短期记忆网络
在本研究中使用这种模型的想法主要来源于文章: 《正规化和优化
语言模型》。它使用权重下降的 , 将有关
LSTM LSTM LSTM
hidden-to-hidden 权重的 DropConnect 用作循环正则化形式。
D
文档评论(0)