第9章EM算法及其推广课题.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
有时训练数据只有输入没有对应的输出{(x1,·),(x2,·),…,(xn,·)},从这样的数据学习模型称为非监督学习问题 EM算法可以用于生产模型的非监督学习 生成模型由联合概率分布P(X,Y)表示,可以认为非监督学习训练数据是联合概率分布产生的数据.X为观测数据,Y为未观测数据. 定理9.1 设P(Y|θ)为观测数据的似然函数, (i=1,2,…)为EM算法得到的参数估计序列,则 (i=1,2,…)为对应的似然函数序列,则 是单调递增的,即 证明 由于 取对数有 由 令 于是对数似然函数可以写成 只需证明右端为非负值即得出结果,由于 使 达到极大,所以有 其第二项,由 得出 定理9.2 设L(θ)=logP(Y|θ)为观测数据的对数似然函数, (i=1,2,…)为EM算法得到的参数估计序列, (i=1,2,…)为对应的对数似然函数序列. (1)如果 P(Y|θ)有上界,则 收敛到某一值L*; (2)在函数 与 L(θ)满足一定条件下,由EM算法得到的参数估计序列 的收敛值 θ*是 L(θ)的稳定点。 定理9.2关于函数 与L(θ)的条件在大多数情况下都是满足的. EM算法的收敛性包含关于对数似然函数序列 的收敛性和关于参数估计序列 的收敛性两层意思,前者并不蕴含后者。 定理只能保证参数估计序列收敛到对数似然函数序列的稳定点,不能保证收敛到极大值点。 在实际应用中,初值的选择非常重要,常用的办法是选取几个不同的初值进行迭代,然后对得到的各个估计值加以比较,从中选择最好的。 EM算法是一种迭代算法,1977年由Dempster 等人总结提出,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望;M步,求极大。所以这一算法称为期望极大算法(Expectation Maximization),简称EM算法。 极大似然估计是概率论在统计学中的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次实验,观察其结果,利用结果推出参数的大概值。 似然函数: 已知样本集X,X是通过概率密度p(x|θ)抽取。样本集X中各个样本的联合概率: 为了便于分析,由于L(θ)是连乘的,还可以定义对数似然函数,将其变成连加的: 求极值可以转换为以下方程: θ的极大似然估计量表示为: 9.1 EM算法的引入 9.1.1 EM算法 9.1.2 EM算法的导出 9.1.3 EM算法在非监督学习中的应用 9.2 EM算法的收敛性 例9.1(三硬币模型)假设有3枚硬币,分别记作A, B, C. 这些硬币正面出现的概率分别是π, p, q. 进行如下掷硬币试验:先掷硬币A,根据其结果选出硬币B或硬币C,正面选硬币B,反面选硬币C;然后掷选出的硬币,掷硬币的结果,出现正面记作1,出现反面记作0;独立地重复n次试验(这里,n=10),观测结果如下: 1,1,0,1,0,0,1,0,1,1 假设只能观测到掷硬币的结果,不能观测掷硬币的过程。问如何估计三硬币正面出现的概率,即三硬币模型的参数。 解 三硬币模型可以写作 y: 观测变量,表示一次试验观测的结果是1或0 z: 隐变量,表示未观测到的掷硬币A的结果 θ:θ=(π,p,q)是模型参数 将观测数据表示为Y=(Y1,Y2,…,Yn)T,未观测数据表示为Z=(Z1,Z2,…,Zn)T,则观测数据的似然函数为 即 考虑求模型参数θ=(π,p,q)的极大似然估计,即 EM算法首先选取参数的初值,记作 ,然后通过下面的步骤迭代计算参数的估计值,直至收敛为止。第i次迭代参数的估计值为 。EM算法的第i+1次迭代如下 E步:计算在模型参数 下观测数据yj 来自掷硬币B的概率 那么观测数据yj 来自硬币C的概率为1-μ(i+1) M步:先写出期望 然后分别求导,计算模型参数的新估计值 假设模型参数的初值取为 由E步公式对yj=1与yj=0均有μj(1)=0.5 利用M步迭代公式,得到 继续计算μj(2)=0.5,j=1,2,…,10 继续迭代,得 于是得到模型参数θ的极大似然估计: EM算法与初值的选择有关,选择不同的初值可能得到不同的参数估计值。如果取初值

文档评论(0)

a5522235 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档