人工智能迁移学习在自然语言处理中的应用.PDFVIP

下载本文档

4
0
约9.01千字
约 16页
2019-03-22 发布于天津
举报
版权申诉

人工智能迁移学习在自然语言处理中的应用.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能迁移学习在自然语言处理中的应用.PDF

人工智能｜迁移学习在自然语言处理中的应用原创：Prajjwal英特尔开发人员专区昨天通用语言建模在相当长的时间里，人们一直将迁移学习应用于计算机视觉 (CV) 领域，而且最近几年也取得了显著的成果。执行一些任务时，我们甚至能超越人类准确度水平。最近，很少能看到无需预训练权重就能输出顶尖结果的模型实施情况。事实上，人们生产它们时，通常使用迁移学习或某种微调的方法。迁移学习在计算机视觉领域产生了巨大影响，为该领域的发展作出了巨大贡献。到目前为止，迁移学习仅限于计算机视觉，但最新研究表明，迁移学习的影响几乎无处不在，其中包括自然语言处理 (NLP) 和强化学习 (RL)。最近的几篇论文表明，迁移学习和微调在 NLP 中的使用效果不错。最近，OpenAI 还举办了强化学习竞赛 retro 竞赛，参赛者的挑战是创建代理，在玩游戏时不能接触环境，而是利用迁移学习进行训练。现在，我们可以充分挖掘这种方法的潜能。图利用过去的经验学习新事物（强化学习中的新环境） 1. 此前的研究涉及计算机视觉领域中的增量学习，对模型进行了概括，因为这是确保神经网络的学习保持稳定的最重要因素之一。一篇旨在以此为基础的论文是《面向文本分类的通用语言模型微调》。文本分类是 NLP 的重要组成部分，它与现实生活场景密切相关，例如机器人、语音助理、欺诈或垃圾邮件检测、文档分类等等。由于我们处理的是语言模型，因此这项技术的用途十分广泛，几乎可以扩展至所有任务。本文的作者进行的是文本分类。到目前为止，大部分学术研究仍然用嵌入来训练类似 word2vec 和 GloVe 这样的模型。嵌入的局限性词嵌入是单词的密集表示。嵌入通过转换为张量的真实数字完成，这些数字将被输入到模型中。在模型中，需要用特定顺序（状态化）排序，这样模型才能学会词语和语境之间的语法和语义关系。图不同数据类型的可视化 2. 进行可视化时，语义相近的单词彼此之间的嵌入也会更加紧密，这样每个单词都会有不同的向量表示。词汇表中不常见词处理数据集时，我们通常会遇到生僻词，因为内存中保存的词汇量有限。图令牌化。这些词都在词汇表中，而且都是通用词汇，但如果用嵌 3. 入，就无法有效地处理类似这样的令牌。对出现频率较小的词语，模型很难弄清楚它的词义，因此创建了一个词汇表来解决这一问题。Word2vec 无法处理未知单词。如果模型不认识这个单词，就无法确切地构造它的向量，因此它必须随机地进行初始化。关于嵌入，常见的问题有：处理共享表示这种表示的另一个不足之处是子词之间没有共享表示。英语中的前缀和后缀通常会为所有词添加一个共同的含义（比如和 “better” “faster” 中的比较级 -er）。由于每个向量是独立的，因此不能完全理解词语之间的语义关系。共现统计分布式词向量模型能够捕获词语中共现统计的某些方面。在单词共现数量上训练的嵌入可以捕获语义字之间的相似性，所以可以根据词义相似性任务进行评估。如果某种特定语言模型采用 char-based 输入，但这种输入无法从预训练中受益，那么就需要进行随机嵌入。支持新语言如果遇到其他语言，使用嵌入将无法确定模型的稳定性。使用新语言时，需要使用新的嵌入矩阵，但这些矩阵无法从参数共享中受益，因此模型不能执行跨语言任务。嵌入可以串级，但仍然必须从头开始训练模型；预训练的嵌入将被视为固定参数。这样的模型在增量学习中没有任何作用。计算机视觉已经表明，hypercolumn 和其他常用的训练方法相比，并不实用。在 CV 中，像素的超列 (hypercolumn) 是该像素上所有卷积网络单元的激活矢量。图卷积网络中的超列 4. 平均随机梯度法权重下降的长短期记忆网络在本研究中使用这种模型的想法主要来源于文章：《正规化和优化语言模型》。它使用权重下降的，将有关 LSTM LSTM LSTM hidden-to-hidden 权重的 DropConnect 用作循环正则化形式。 D