（本科）语言模型课件.pptxVIP

下载本文档

4
0
约5.17千字
约 42页
2022-07-22 发布于辽宁
举报
版权申诉

（本科）语言模型课件.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

06-语言模型课程主讲人：自然语言处理第6章语言模型教材：刘挺等《自然语言处理》高等教育出版社，2021目录n元语言模型n元文法最大似然估计语言模型性能评价平滑神经网络语言模型前馈神经网络语言模型循环神经网络语言模型预训练语言模型单向语言模型预训练双向语言模型预训练掩码语言模型预训练目录n元语言模型n元文法最大似然估计语言模型性能评价平滑神经网络语言模型前馈神经网络语言模型循环神经网络语言模型预训练语言模型单向语言模型预训练双向语言模型预训练掩码语言模型预训练语言模型语言模型（也称为统计语言模型），是用来描述自然语言概率分布的模型给定一个词序列，语言模型根据习得的统计规律给出这个词序列作为一句话被产生的概率语言模型阳光洒在海面语言模型语言模型阳光洒在啊海面…眼睛…语言模型（也称为统计语言模型），是用来描述自然语言概率分布的模型利用语言模型，也可以在给定上文条件下对接下来可能出现的词进行预测语言模型预训练任务语料语言模型洒阳光在海面++语言模型（也称为统计语言模型），是用来描述自然语言概率分布的模型同时语言模型还为自然语言的表示学习提供了天然的自监督优化目标n元语言模型给定一个词序列，对下一个时刻可能出现的词进行条件概率估计一般地我们将称为的历史例如，对于“阳光洒在”，我们想获得下一个词为“海面”的概率。在一个给定的语料库下，该条件可以理解为当语料中出现“阳光洒在”时，有多少词下一个词为“海面”语言模型啊海面…眼睛…在阳光洒n元语言模型为了进一步计算一个句子的概率，即相应单词序列的联合概率，我们可以利用链式法则将其进行分解，我们使用记号表示由位置i到j的子串。那么有：从而将其转化为条件概率的计算问题（6.1）n元语言模型虽然上述基于频次的方法简单易于操作。但是随着句子长度的增加，需要的参数（条件概率）数量呈指数级增长，我们难以承担估计的代价。同时随着语言的灵活性和创造性，我们无法对于新产生的句子和句式以及长句子给予可靠的估计，所以在实际使用中，往往很少使用三元以上的文法模型事实上，假定限定词表的大小为，在n元语言模型中可能的参数的数量将达到n元语言模型针对上述问题，我们引入一个一般性的假设：下一个词的出现只依赖于离它最近的n-1个词从形式上来看，则是假设如下等式成立：该假设被称为马尔可夫假设（Markov Assumption）。满足这种假设的模型我们称为n元语法或n元文法（n-gram）模型。一元unigram，二元bigram，三元trigram…（6.2）n元语言模型以bigram模型为例，前面例子中的可以用进行近似那么，公式（6.1）中的联合概率则可近似为为了使得在i为1时有意义。我们在句子的开头加一个句首标记使得。同时在句子的结尾增加一个句尾标记，使得值得注意的是，在没有句尾标记的情况下所训练得到的语言模型中，任一给定长度下的所有可能句子的概率和为1。即其概率分布是作用在一个给定长度的句子空间内，而不是所有可能的句子空间。而在有句尾标记的情况下得到的是所有可能句子的概率和为1。（6.3）最大似然估计如前所述，对于n-gram模型中条件概率的估计可以使用基于频次的方法。以bigram模型为例，我们计算：这种估计方法称为最大似然估计（Maximum Likelihood Estimation, MLE）（6.4）最大似然估计例6.1. 假设训练语料由以下三个句子构成：根据最大似然估计得到的部分bigram条件概率如下最大似然估计根据公式（6.3），我们可以进一步计算句子的概率，例如：语言模型性能评价如何评价语言模型的好坏？一种方法是将其应用于具体的外部任务（例如机器翻译），并且根据该任务上的指标的变化来对语言模型进行评价。这种方法也被称为外部任务评价但是外部任务评价的代价较高，所以我们现在最为常用的仍然是给予困惑度（Perplexity，PPL）的内部评价方式语言模型性能评价为了进行内部评价，我们首先将数据分为不相交的两个集合分别称为训练集和测试集其中用于估计语言模型的参数。由该模型计算出的测试集的概率则反映了模型在测试集上的泛化能力当模型较为复杂（例如使用了平滑技术）时，在测试集上反复评价并调整超参数的方式会使得模型在一定程度上拟合了测试集。因此在标准实践中，需要划分一个额外