机器学习中的参数估计方法.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习中的参数估计方法分类:机器学习2015-01-10 19:46 20人阅读评论(0)收藏举报 机器学习参数估计 前几天上的机器学习课上,老师讲到了参数估计的三种方法:ML, MAP和Bayesian estimationo课后,又查了一些相关资料,以及老师推荐的LDA方面的论文 ^Parameter estimation for text analysis》。本文主要介绍文本分析的三类参数估计,方法? 最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计,以及三者之间的区别。 1、最大似然估计MLE首先回顾一下贝叶斯公式 P(创 X P(创 X)= P(X|9)?p⑹ PW . likelihood - priorposterior =: evidence. 最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做L[e\x)=p(x\o)= l[p(x = x\0) xeX由于有连乘运算,通常对似然函数取对数计算简便,即对数似然函数。最大似然估计问题可 以写成 = argmajceL(0\X) = arg mao:logp(N|。)xeX 这是一个关于夕的函数,求解这个优化问题通常对求导,得到导数为。的极值点。该函数 取得最大值是对应的。的取值就是我们估计的模型参数。 以扔硬币的伯努利实验为例子,N次实验的结果服从二项分布,参数为P,即每次实验事件 发生的概率,不妨设为是得到正面的概率。为了估计P,采用最大似然估计,似然函数可以 写作其中/表示实验结果为i的次数。下面求似然函数的极值点,有 0L 7?⑴ 7网——==0 dp p 1 — p得到参数p的最大似然估计值为 一〃⑴72⑴可以看出二项分布中每次事件发的概率p就等于做N次独立重复随机试验中事件发生的概 率。 如果我们做20次实验,出现正面12次,反面8次那么根据最大似然估计得到参数值p为12/20 = 0.6c 2、最大后验估计MAP最大后验估计与最大似然估计相似,不同点在于估计夕的函数中允许加入一个先验P?),也 就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,即注意这里P(X)与参数。无关,因此等价于要使分子最大。与最大似然估计相比,现在需 要多加上一个先验分布概率的对数。在实际应用中,这个先验可以用来描述人们己经知道或 者接受的普遍规律。例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分 布,这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参 数(hyperparameter)即 同样的道理,当上述后验概率取得最大值时,我们就得到根据MAP估计出的参数值。给定 观测到的样本数据,一个新的值]发生的概率是p(x\X) = [ p[x\0map)P(0\X)M = p(x\0map) 下面我们仍然以扔硬币的例子来说明,我们期望先验概率分布在0.5处取得最大值,我们可 以选用Beta分布即阳小团=.PE/瓦山” 其中Beta函数展开是3( = 3( = 3( =r(a + 户)当x 3( = r(a + 户) r(n)=(八一1)! Beta分布的随机变量范围是[0,1],所以可以生成normalised probability valueso以下图给出了 不同参数情况下的Beta分布的概率密度函数 Betail/3. 1)Beta(10.30) 4)Beta(2.6) 4) Fig. 1. Density functions of the beta distribution with different symmetric and as} metric parametrisations. 我们取。=$ =这样先验分布在0.5处取得最大值,现在我们来求解MAP估计函数的极值点,同样对p求导数我们有 得到参数p的的最大后验估计值为和最大似然估计的结果比照可以发现结果中多了。一 La +4一 2这样的 pseudo-counts,这就是先验在起作用。并且超参数越大,为了改变先验分布传递的belief所 需要的观察值就越多,此时对应的Beta函数越聚集,紧缩在其最大值两侧。 如果我们做20次实验,出现正面12次,反面8次,那么那么根据MAP估计出来的参数p为16/28 = 0.571,小于最大似然估计得到的值0.6,这也显 示了“硬币一般是两面均匀的”这一先验对参数估计的影响。 3贝叶斯估计贝叶斯估计是在MAP上做进一步拓展,此时不宜接估计参数的值,而是允许参数服从一定 概率分布。回顾一下贝叶斯公式 P(创 X)=P(X|9)?p⑹ PW 现在不是要求后验概率最大,这样就需要求P(X),即观察到的evidence的概率,由全概率公式展开可得 p(X)= [ p(X]9)p

文档评论(0)

艺心论文信息咨询 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体成都艺心风尚电子商务有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6CA54M2R

1亿VIP精品文档

相关文档