- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
只要有一些训练数据,再定义一个最大化函数,采用EM算法,利用计算机经过若干次迭
代,就可以得到所要的模型。这实在是太美妙了,这也许是我们的造物主刻意安排的。所
以我把它称作为上帝的算法。——吴军
01极大似然原理
要立即EM算法,我们先来了解一个经典的原理——极大似然原理(也叫最大似然原理)
。
看完这个示例,想必你对极大似然已经有了初步的认识,没错,满足某个条件,使得事件
发生的可能性最大。上面这个例子,就是,满足小球从乙箱中取出,使得球是黑球的概率
最大。
我们再来看一个经典的示例:
问题:假设我们需要调查我们学校的男生和女生的身高分布。
步骤1:在校园里随便地活捉了100个男生和100个女生,共200人。
步骤2:你开始喊:“男的左边,女的右边,其他的站中间!”。
步骤3:统计分别得到100个男生的身高和100个女生的身高。
求解:假设他们的身高是服从高斯分布的。但是这个分布的均值u和方差∂2我们不知道
,这两个参数就是我们要估计的。记作θ=[u,∂]T。
用刚才的语境来解释,就是,满足这个分部的均值u和方差∂2,使得我们的观测数据(
100个男生身高和100个女生的身高)出现的可能性最大。
总结一下,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)
导致这样结果的参数值。极大似然估计提供了一种给定观察数据来评估模型参数的方法,
即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参
数值能够使样本出现的概率为最大,则称为极大似然估计。
02EM算法(期望最大值算法)
回到例子本身,如果没有“男的左边,女的右边,其他的站中间!”这个步骤,现在这
200个人已经混到一起了。这个时候,对于每一个样本或者你抽取到的人,就有两个东西
需要估计的了:
这个人是男生还是女生?男生和女生对应的身高的高斯分布的参数是多少?
那这个问题EM算法是怎么解决的呢?我们先来看答案。
步骤1:我们先随便猜一下男生(身高)的正态分布的参数:如均值和方差是多少。例如
男生的均值是1米7,方差是0.1米(当然了,刚开始肯定没那么准)。女生的正态分布
参数同理。
步骤2:计算出每个人更可能属于第一个还是第二个正态分布中的。例如,这个人的身高
是1米8,那很明显,他最大可能属于男生的那个分布)。这个是属于Expectation一步
。
步骤3:有了每个人的归属,我们已经大概地按上面的方法将这200个人分为男生和女生
两部分了。
现在看出来了吗?我们已经分别得到了100个男生的身高和100个女生的身高。是不是
回到了最大似然估计问题?
步骤4:根据最大似然估计,通过这些被大概分为男生的n个人来重新估计第一个分布的
参数,女生的那个分布同样方法重新估计,也就是重新求解这个分布的均值u和方差∂2
。这个是Maximization。
假定计算结果当前男生的均值是1米74,方差是0.08。
看出来了吗?这和我们最初随便猜的那个参数不一致呀!
步骤5:重新猜。假定我们第二次猜测时取个中间值,例如男生的均值是1米72,方差
是0.09。继续步骤1——步骤2——步骤3——步骤4……如此往复,直到收敛,参数基
本不再发生变化为止。
我们再用一个简单的例子来总结这EM算法的精髓:
小时候,老妈给一大袋糖果给你,叫你和你姐姐等分,然后你懒得去点糖果的个数,所以
你也就不知道每个人到底该分多少个。咱们一般怎么做呢?先把一袋糖果目测的分为两袋
,然后把两袋糖果拿在左右手,看哪个重,如果右手重,那很明显右手这代糖果多了,然
后你再在右手这袋糖果中抓一把放到左手这袋,然后再感受下哪个重,然后再从重的那袋
抓一小把放进轻的那一袋,继续下去,直到你感觉两袋糖果差不多相等了为止。
EM算法就是这样,假设我们想估计知道A和B两个参数,在开始状态下二者都是未知的
,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考
虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的
取值,这个过程一直持续到收敛为止。
现在,我们来总结一下:
EM(ExpectationMaximization)算法包括了两个过程和一个目标函数:
E-step:根据现有的聚类结果,对所以数据(点)重新进行划分。如果把最终得到的分类
结果看作是一个数学的模型,那么这些聚类的中心(值),以及每一个点和聚类的
您可能关注的文档
- [AI工具宝典]AI产品经理 VS 数据产品经理,看这5点区别与联系.pdf
- [AI工具宝典]AI产品经理,如何规划AI产品的MVP?.pdf
- [AI工具宝典]AI产品经理必懂的硬知识(一):应用领域篇.pdf
- [AI工具宝典]AI产品经理必修:揭开算法的面纱(隐含马尔可夫).pdf
- [AI工具宝典]AI产品经理必修——揭开算法的面纱(贪心算法).pdf
- [AI工具宝典]AI产品经理必修——揭开算法的面纱(余弦定理).pdf
- [AI工具宝典]AI产品经理必知的两类ChatBot详解.pdf
- [AI工具宝典]AI产品经理的必修课:系统化思维.pdf
- [AI工具宝典]AI产品经理的关键性产品思维.pdf
- [AI工具宝典]AI产品经理的价值和未来|学习俞军老师分享有感.pdf
- 2024精简护肤洁面趋势报告-TMIC-30正式版.doc
- 2024捕捉华夏民族珍味-咸味主食与咸味零食创新机遇报告-25正式版.doc
- 2024年秋季部编版小学道德与法治二年级上册全册课件PPT最新.pptx
- 部编版第十一册第四单元拓展提高教学课件.ppt
- 2024年秋季新西师大版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋新人教版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋季新人教版数学一年级上册全册教学课件(新版教材).pptx
- 2024年秋季新人教版数学一年级上册全册课件(新版教材).pptx
- 2024年秋季新人教版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋季新人教版一年级上册数学全册课件(新版教材).pptx
文档评论(0)