- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
102|基础文本分析模型之三:EM算法
2018-04-25洪亮劼来自北京
《AI技术内参》
周一我们分享的模型是“概率隐语义分析”(ProbabilisticLatentSemanticIndexing),
或者简称为PLSA,这类模型有效地弥补了隐语义分析的不足,在LDA兴起之前,成为了有
力的文本分析工具。
不管是PLSA,还是LDA,其模型的训练过程都直接或者间接地依赖一个算法,这个算法叫作
“期望最大化”(ExpectationMaximization),或简称为EM算法。实际上,EM算法是
针对隐参数模型(LatentVariableModel)最直接有效的训练方法之一。既然这些模型都需
要EM算法,我们今天就来谈一谈这个算法的一些核心思想。
EM和MLE的关系
EM算法深深根植于一种更加传统的统计参数方法:最大似然估计(MaximumLikelihood
Estimation),有时候简称为MLE。绝大多数的机器学习都可以表达成为某种概率模型的
MLE求解过程。
具体来说,MLE是这样构造的。首先,我们通过概率模型写出当前数据的“似然表达”。所
谓的“似然”表达,其实也就是在当前模型的参数值的情况下,看整个数据出现的可能性有多
少。可能性越低,表明参数越无法解释当前的数据。反之,如果可能性非常高,则表明参数可
以比较准确地解释当前的数据。因此,MLE的思想其实就是找到一组参数的取值,使其可以
最好地解释现在的数据。
针对某一个模型写出这个MLE以后,就是一个具体的式子,然后看我们能否找到这个式子最
大值下的参数取值。这个时候,整个问题往往就已经变成了一个优化问题。从优化的角度来
说,那就是针对参数求导,然后尝试把整个式子置零,从而求出在这个时候的参数值。
对绝大多数相对比较简单的模型来说,我们都可以根据这个流程求出参数的取值。比如,我们
熟悉的利用高斯分布来对数据进行建模,其实就可以通过MLE的形式,写出用高斯建模的似
然表达式,然后通过求解最优函数解的方式得到最佳的参数表达。而正好,这个最优的参数就
是样本的均值和样本的方差。
然而,并不是所有的MLE表达都能够得到一个“解析解”(ClosedFormSolution),有不
少的模型甚至无法优化MLE的表达式,那么这个时候,我们就需要一个新的工具来求解
MLE。
EM算法的提出就是为了简化那些求解相对比较困难模型的MLE解。
有一点需要说明的是,EM算法并不能直接求到MLE,而只能提供一种近似。多数无法直接求
解的MLE问题都属于非凸(Non-Convex)问题。因此,EM能够提供的仅仅是一个局部的
最优解,而不是全局的最优解。
EM算法的核心思想
理解了EM和MLE的关系后,我们来看一看EM的一些核心思想。因为EM算法是技术性比
较强的算法,我建议你一定要亲自去推演公式,从而能够真正理解算法的精髓。我们在这里主
要提供一种大体的思路。
EM算法的一种解释是这样的。首先,我们可以通过代数变形,为每一个数据点的似然公式找
到一个新的概率分布,而这个概率分布是通过一个隐含变量来达到的。很明显,在理论上,我
们可以通过把这个隐含变量积分掉来达到恢复原始的MLE公式的目的。
然而,这里遇到的一个大的阻碍就是,在MLE公式里面,有一个求对数函数(log)在这个积
分符号外面。这就导致整个式子无法进行操作。通俗地讲,EM就是要针对这样的情况,试图
把这个在积分符号之外的求对数函数拿到积分符号里面。能够这么做,是因为有一个不等式,
叫“杨森不等式”。你不需要去理解杨森不等式的细节,大体上这个不等式是说,函数的期望
值要大于或等于先对函数的变量求期望然后再对其作用函数。
于是,在这样的一个不等式的引领下,我们刚才所说的积分,其实就可以被看作是对某一个函
数求期望值。而这个函数,恰好就是模型的似然表达。通过杨森不等式,我们可以把对数函数
拿到积分符号里面,这样当然就无法保持等号了,也就是说,这一步的操作不是一个等值操
作。利用杨森不等式之后的式子其实是原来的式子,也就是含有隐含变量的MLE式的一个
“下限”(LowerBound)。
利用杨森不等式,从而写出一个原始的MLE的下限,是标准的EM算法以及一系列基于变分
EM(VariationalEM)算法的核心思想。这么做的目的其实就是把对数函数从积分的外面给
拿到里面。
当我们有了这个下限之后,我们就可以套用ML
您可能关注的文档
- 出口商品技术指南-木制品(1).pdf
- 002-精读2017年KDD最佳研究论文【萌萌家】(1).pdf
- 003-精读2017年KDD最佳应用数据科学论文【萌萌家】.pdf
- 007-精读2017年ICCV最佳研究论文【萌萌家】.pdf
- 013-WSDM2018论文精读:看谷歌团队如何做位置偏差估计【萌萌家】.pdf
- 014-WSDM2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息【萌萌家】.pdf
- 019-SIGIR2018论文精读:偏差和“流行度”之间的关系【萌萌家】.pdf
- 025-ICML2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉【萌萌家】.pdf
- 026-ICML2018论文精读:聊一聊机器学习算法的“公平性”问题【萌萌家】.pdf
- 027-ICML2018论文精读:优化目标函数的时候,有可能放大了“不公平”?【萌萌家】.pdf
- 106-序列建模的深度学习利器:RNN基础架构【萌萌家】.pdf
- 108-RNN在自然语言处理中有哪些应用场景?【萌萌家】.pdf
- 109-对话系统之经典的对话模型【萌萌家】.pdf
- 110-任务型对话系统有哪些技术要点?【萌萌家】.pdf
- 112-什么是文档情感分类?【萌萌家】.pdf
- 115-什么是计算机视觉?【萌萌家】.pdf
- 116-掌握计算机视觉任务的基础模型和操作【萌萌家】.pdf
- 117-计算机视觉中的特征提取难在哪里?【萌萌家】.pdf
- 118-基于深度学习的计算机视觉技术(一):深度神经网络入门【萌萌家】.pdf
- 119-基于深度学习的计算机视觉技术(二):基本的深度学习模型【萌萌家】.pdf
文档评论(0)