102-基础文本分析模型之三：EM算法【萌萌家】.pdf

下载文档

0
0
约3.12千字
约 5页
2025-03-14 发布于山东
举报
版权申诉
保障服务

102-基础文本分析模型之三：EM算法【萌萌家】.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

102|基础文本分析模型之三：EM算法

2018-04-25洪亮劼来自北京

《AI技术内参》

周一我们分享的模型是“概率隐语义分析”（ProbabilisticLatentSemanticIndexing），

或者简称为PLSA，这类模型有效地弥补了隐语义分析的不足，在LDA兴起之前，成为了有

力的文本分析工具。

不管是PLSA，还是LDA，其模型的训练过程都直接或者间接地依赖一个算法，这个算法叫作

“期望最大化”（ExpectationMaximization），或简称为EM算法。实际上，EM算法是

针对隐参数模型（LatentVariableModel）最直接有效的训练方法之一。既然这些模型都需

要EM算法，我们今天就来谈一谈这个算法的一些核心思想。

EM和MLE的关系

EM算法深深根植于一种更加传统的统计参数方法：最大似然估计（MaximumLikelihood

Estimation），有时候简称为MLE。绝大多数的机器学习都可以表达成为某种概率模型的

MLE求解过程。

具体来说，MLE是这样构造的。首先，我们通过概率模型写出当前数据的“似然表达”。所

谓的“似然”表达，其实也就是在当前模型的参数值的情况下，看整个数据出现的可能性有多

少。可能性越低，表明参数越无法解释当前的数据。反之，如果可能性非常高，则表明参数可

以比较准确地解释当前的数据。因此，MLE的思想其实就是找到一组参数的取值，使其可以

最好地解释现在的数据。

针对某一个模型写出这个MLE以后，就是一个具体的式子，然后看我们能否找到这个式子最

大值下的参数取值。这个时候，整个问题往往就已经变成了一个优化问题。从优化的角度来

说，那就是针对参数求导，然后尝试把整个式子置零，从而求出在这个时候的参数值。

对绝大多数相对比较简单的模型来说，我们都可以根据这个流程求出参数的取值。比如，我们

熟悉的利用高斯分布来对数据进行建模，其实就可以通过MLE的形式，写出用高斯建模的似

然表达式，然后通过求解最优函数解的方式得到最佳的参数表达。而正好，这个最优的参数就

是样本的均值和样本的方差。

然而，并不是所有的MLE表达都能够得到一个“解析解”（ClosedFormSolution），有不

少的模型甚至无法优化MLE的表达式，那么这个时候，我们就需要一个新的工具来求解

MLE。

EM算法的提出就是为了简化那些求解相对比较困难模型的MLE解。

有一点需要说明的是，EM算法并不能直接求到MLE，而只能提供一种近似。多数无法直接求

解的MLE问题都属于非凸（Non-Convex）问题。因此，EM能够提供的仅仅是一个局部的

最优解，而不是全局的最优解。

EM算法的核心思想

理解了EM和MLE的关系后，我们来看一看EM的一些核心思想。因为EM算法是技术性比

较强的算法，我建议你一定要亲自去推演公式，从而能够真正理解算法的精髓。我们在这里主

要提供一种大体的思路。

EM算法的一种解释是这样的。首先，我们可以通过代数变形，为每一个数据点的似然公式找

到一个新的概率分布，而这个概率分布是通过一个隐含变量来达到的。很明显，在理论上，我

们可以通过把这个隐含变量积分掉来达到恢复原始的MLE公式的目的。

然而，这里遇到的一个大的阻碍就是，在MLE公式里面，有一个求对数函数（log）在这个积

分符号外面。这就导致整个式子无法进行操作。通俗地讲，EM就是要针对这样的情况，试图

把这个在积分符号之外的求对数函数拿到积分符号里面。能够这么做，是因为有一个不等式，

叫“杨森不等式”。你不需要去理解杨森不等式的细节，大体上这个不等式是说，函数的期望

值要大于或等于先对函数的变量求期望然后再对其作用函数。

于是，在这样的一个不等式的引领下，我们刚才所说的积分，其实就可以被看作是对某一个函

数求期望值。而这个函数，恰好就是模型的似然表达。通过杨森不等式，我们可以把对数函数

拿到积分符号里面，这样当然就无法保持等号了，也就是说，这一步的操作不是一个等值操

作。利用杨森不等式之后的式子其实是原来的式子，也就是含有隐含变量的MLE式的一个

“下限”（LowerBound）。

利用杨森不等式，从而写出一个原始的MLE的下限，是标准的EM算法以及一系列基于变分

EM（VariationalEM）算法的核心思想。这么做的目的其实就是把对数函数从积分的外面给

拿到里面。

当我们有了这个下限之后，我们就可以套用ML

您可能关注的文档

文档评论（0）

133****9720 + 关注: 实名认证

内容提供者

物业管理师证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

更多 >

102-基础文本分析模型之三：EM算法【萌萌家】.pdf