NLP学习笔记实用知识库分享.pdfVIP

下载本文档

9
0
约7.34万字
约 98页
2024-04-11 发布于北京
举报
版权申诉

NLP学习笔记实用知识库分享.pdf

1、本文档共98页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

NLP学习笔记

NLP学习笔记1

第1篇ALBERT-更小更少但并不快2

第2篇Bert如何融入知识一-百度和清华ERINE

第3篇FastBert学习笔记

第4篇Pytorch代码分析-如何让Bert在finetune小数据集时更“稳”一点

第5篇tBERT-BERT融合主题模型17

第6篇UniLM：给Bert插上文本生成的翅膀

第7篇NLP中的XLNET

第9篇为什么Bert做不好无监督语义匹配

第10篇3分钟从零解读Transformer的Encoder

第11篇BN踩坑记--谈一下BatchNormalization的优缺点和适用场景

第12篇NLP任务中-layer-norm比BatchNorm好在哪里

第13篇VIT-如何将Transformer更好的应用到CV领域

第14篇史上最全Transformer面试题

第15篇谈一谈Decoder模块

第16篇谈一下相对位置编码65

第17篇原版Transformer的位置编码究竟有没有包含相对位置信息

第18篇Fasttext解读(1)

第19篇word2vec两种优化方式的联系和区别

第20篇灵魂20问帮你彻底搞定词向量

第21篇史上最全词向量面试题梳理90

第22篇层次分类体系的必要性-多模态讲解系列92

第23篇多模态之ViLBERT：双流网络，各自为王

第1篇ALBERT-更小更少但并不快

BERT模型的压缩大致可以分为：1.参数剪枝；2.知识蒸馏；3.参数共享；4.低秩分解。

其中，对于剪枝，比较简单，但是容易误操作降低精读；

对于知识蒸馏，之前我写个一系列的文章，重点可以看一下这里：

对于参数共享和低秩分解，就和今天分享的ALBERT息息相关；

它减少了BERT的参数，但是需要注意的一个细节点是，同等规格下，ALBERT速度确实变快，但是

并不明显（和大量自媒体文章解读给大家的印象差距很大）；

举个形象的例子就是，（这个例子并不严谨，只是帮助理解）参数共享让它训练的时候把多层压

缩为一层去训练，但是在预测的时候，我们需要再展开多层去进行预测。

主要掌握以下的几个知识点：

1.词向量嵌入参数分解

2.跨层参数分享

3.取消NSP，使用SOP

4.预训练的时候采用更满的数据/n-grammask方式

1.词向量嵌入分解

词向量嵌入参数分解，简单说就是将词向量矩阵分解为了两个小矩阵，将隐藏层的大小和词汇矩

阵的大小分离开。

在Bert中，词汇表embedding大小是VHV*HVH；

Albert的参数分解是这样的，将这个矩阵分解为两个小矩阵：VEV*EVE和EHE*HEH

这样做有什么好处呢？

如果说，我觉得我的模型表达能力不够，我想要通过增大隐层H的大小来提升我们模型能力的表达

能力，那么在提升H的时候，不仅仅隐层参数增多，词汇表的embedding矩阵维度也在增多，参数

量也在增大。

矩阵分解之后，我们可以只是做到提升隐层大小，而不去改变表词汇表的大小。

2.跨层参数分享

跨层参数分享，这个操作可以防止参数随着网络层数的增大而增加。

分为三种形式，只是共享attentions，只是共享FFN，全部共享。

共享的意思就是我这部分结构只使用同样的参数，在训练的时候只需要训练这一部分的参数就可

以了。

看表格我

您可能关注的文档

文档评论（0）

IT文档大师 + 关注: 实名认证

文档贡献者

IT架构师、码农、自由职业者

咨询Ta 进入空间

1亿VIP精品文档

更多 >

NLP学习笔记实用知识库分享.pdfVIP