2026《关于神经语言模型的研究文献综述》2800字.docxVIP

下载本文档

0
0
约4.42千字
约 6页
2026-01-16 发布于湖北
举报
版权申诉

2026《关于神经语言模型的研究文献综述》2800字.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于神经语言模型的研究文献综述

1.1语言模型

语言模型（LanguageModel）产生主要任务是对文字序列出现的规律进行建模描述，这种建模的方式被称为语言建模（LanguageModeling）。在应用统计方法的建模中，语言模型被定义为计算P(w1w2w3…wm)的模型，即计算一个完整词序列w1w2w

求P(w1w2w3…wm)并不容易，将整个词序列w1

Pw1w

如此拆分，w1w2w3…wm的生成等同于词序列中一个个单词生成的过程。这种建模过程把联合概率Pw

Pwm∣w1

这种数学表示的优点在于，其所使用的历史信息是有限而非无限的，这样使得模型通过计算机求解变成了可能，这种性质反映了马尔科夫链的思想REF_Re\r\h[5]，因此n-gram模型也可以堪称是变长序列上的一种马尔可夫模型。比如本文中用到的3-gram语言模型对应着二阶马尔可夫模型。

1.2神经网络基础

神经网络作为深度学习的重要概念，最早在控制论中被提到。最初研究人员提出神经网络并不是希望利用神经网络来做一个计算和推断模型，而是希望在一些自动控制领域来利用神经网络进行更好地提升控制系统性能。随着深度学习技术的持续发展，神经网络逐渐被应用到各个领域。神经网络计算模型是由大量神经元相互连接组成的，根据模型深度和大小有着不同的非线性你和能力，可以实现很多常规方法无法实现的复杂功能，也正是因为这个原因，神经网络在自然语言处理领域的应用也取得了巨大成功。相比于传统的统计学习方法，神经网络模型的巨大优势在于可以根据给定的输入和输出自动地去学习数据的特征。在以往的方法中需要研究人员去系统地学习相关领域内的知识，才能比较正确地抽取特征，得到的特征效果还未必有神经网络经过学习得到的特征效果好。

1.2.1神经元

在生物学中，神经系统的基本组成单元是神经元。同样的，人工神经网络模型的基本单元是人工神经元。如图2.1所示是一个典型的人工神经元，其起到的功能和一个y=f(x

图2.1人工神经元

一个人工神经元的主要组成部分有四个：x，w，b，f。其中x是一个类似(x1,x2,…,xn

1.2.2前馈神经网络

前馈神经网络(FeedforwardNeuralNetwork,FNN)REF_Re\r\h[6]，又称多层感知机(MultilayerPerceptron,MLP)，是一个由很多神经元组成的经典的深度学习模型。前馈神经网络由许多神经元组成，神经元分属于不同的层，每一层的神经元接受上一层的输入，处理后传递给下一层。其中第一层为输入层，中间为隐藏层，最后一层是输出层。

图2.2一个简单的三层神经网络示意图

在前馈神经网络之中，层与层之间都是全连接的。如图2.2所示是一个三层的前馈神经网络，这是一个典型的多层神经网络结构，由输入层、隐藏层和输出层构成。其中标为+1的节点是偏置节点。

下面将阐述前馈神经网络的前向传播过程。an

(2.3)

(2.4)

(2.5)

隐藏层的每个节点的输出值an

1.3神经语言模型

神经语言模型（NeuralLanguageModel）REF_Re\r\h[7]是自然语言处理领域在深度学习时代下十分重要的成果，神经语言模型涵盖的许多概念至今仍是研究热点，比如表示学习REF_Re\r\h[8]、预训练REF_Re\r\h[9]、词嵌入等REF_Re\r\h[10]。

传统的语言模型如n-gram语言模型是典型的基于离散表示的模型。在n-gram模型中，所有的单词都被视为离散的，因而不同单词之间是完全没有联系的，这是一种不合理的表示，比如单词“狗”和“猫”之间的差距一定比单词“电脑”“云朵”之间的差距要小一些。另一方面，由于语料库很难穷尽所有n-gram的精确统计，一些n-gram从未在数据中出现过，由于不同的n-gram之间没有建立起联系，n-gram语言模型往往面临着数据稀疏的问题。

这个问题的关键在于n-gram语言模型对语料库中的单词进行了离散的表示，导致词的语义是正交的。神经语言模型则通过设置一个神经网络模型来估计生成单词的概率的方法来避免了这个问题，如式(2.6)所示。

(2.6)

是一个多层神经网络。在神经网络模型中，每个单词是连续空间上的点而非离散的符号，单词之间具有了距离可计算性。研究人员通过定义不同的神经网络来研究不同的序列表示问题。正因如此，神经语言模型在自然语言处理领域有着无可代替的地位。

参考文献

DenilM,ShakibiB,DinhL,

您可能关注的文档

文档评论（0）

02127123006 + 关注: 实名认证

文档贡献者

关注原创力文档

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2026《关于神经语言模型的研究文献综述》2800字.docxVIP