（八）EM算法.pdfVIP

下载本文档

42
0
约1万字
约 7页
2017-06-26 发布于河北
举报
版权申诉

（八）EM算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

（八）EM算法

The EM Algorithm JerryLead csxulijie@ EM 是我一直想深入学习的算法之一，第一次听说是在NLP 课中的HMM 那一节，为了解决 HMM 的参数估计问题，使用了 EM 算法。在之后的 MT 中的词对齐中也用到了。在 Mitchell 的书中也提到EM 可以用于贝叶斯网络中。下面主要介绍EM 的整个推导过程。 1. Jensen 不等式回顾优化理论中的一些概念。设 f 是定义域为实数的函数，如果对于所有的实数 x ， ′′( ) ≥ 0，那么f 是凸函数。当x 是向量时，如果其hessian 矩阵H 是半正定的（H ≥ 0）， ′′( ) 那么f 是凸函数。如果 0或者H 0，那么称f 是严格凸函数。 Jensen 不等式表述如下：如果f 是凸函数，X 是随机变量，那么 , ( )- ≥() 特别地，如果 f 是严格凸函数，那么,()- =()当且仅当p(x = E,X-) = 1，也就是说X 是常量。这里我们将(,-)简写为()。如果用图表示会很清晰：图中，实线f 是凸函数，X 是随机变量，有0.5 的概率是a，有0.5 的概率是b。（就像 , ( )- 掷硬币一样）。X 的期望值就是a 和b 的中值了，图中可以看到 ≥()成立。当f 是（严格）凹函数当且仅当-f 是（严格）凸函数。 , ( )- Jensen 不等式应用于凹函数时，不等号方向反向，也就是 ≤()。 2. EM 算法 ( ) ( ) 1 给定的训练样本是* , …, +，样例间独立，我们想找到每个样例隐含的类别z，能使得p(x,z)最大。p(x,z)的最大似然估计如下：第一步是对极大似然取对数，第二步是对每个样例的每个可能类别z 求联合分布概率和。但是直接求θ一般比较困难，因为有隐藏变量z 存在，但是一般确定了z 后，求解就容易了。 EM 是一种解决存在隐含变量优化问题的有效方法。竟然不能直接最大化ℓ(θ)，我们可以不断地建立ℓ的下界（E 步），然后优化下界（M 步）。这句话比较抽象，看下面的。对于每一个样例 i ，让Q 表示该样例隐含变量 z 的某种分布，Q 满足的条件是 ∑ ( ) ( ) = 1, ≥ 0。（如果z 是连续性的，那么Q 是概率密度函数，需要将求和符号换 i i 做积分符号）。比如要将班上学生聚类，假设隐藏变量z 是身高，那么就是连续的高斯分布。如果按照隐藏变量是男女，那么就是伯努利分布了。可以由前面阐述的内容得到下面的公式：（1）到（2 ）比较直接，就是分子分母同乘以一个相等的函数。（2 ）到（3 ）利用了Jensen 不等式，考虑到log⁡()是凹函数（二阶导数小于0 ），而且就是的期望（回想期望公式中的Lazy Statistician 规则）设Y 是随机变量X 的函数，Y = g(X) （g 是连续函数），那么