17-18.1变分与AdaBoost.ppt

下载文档

1
0
约4千字
约 100页
2017-06-10 发布于上海
举报
版权申诉
保障服务

17-18.1变分与AdaBoost.ppt

1、本文档共100页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

变分原理 AdaBoost 北京10月机器学习班邹博 2014年12月28日从贝叶斯推断说起如果我们有一组观测数据 D，如何推断产生这些数据的模型 m？考虑参数化模型m由模型的类别ξ(如高斯分布，伽马分布，多项式分布等)与模型的参数Θ共同决定。模型的选择假设M为所有可能的模型集合(包括不同类别)，那么选择计算p(m|D) 根据贝叶斯公式 p(m)：模型的先验概率 p(D|m)：数据的似然 p(D)：数据的出现概率——证据先验概率p(m) 先验：贝叶斯规则倾向于选择能解释数据的最简单模型 Occam剃刀原理进一步计算似然注：参数的后验概率模型参数的估计给出一组观测数据D，我们总是能够通过估计参数来推测模型。后验概率的估计通常情况，取后验概率最大的参数值为估计值。根据贝叶斯公式，参数θ后验概率为 p(D)为归一化常数(normalizing constant) 通过估计参数θ来估计单点积分值从经典的统计学角度看，概率是相对频率的，是真实世界的客观属性。因而每个模型被选择的概率是一样的，因而p(θ)为常数。此时问题转化为：这便是极大似然法(ML,Maximum Likelihood)。从贝叶斯学派的角度看，每一个模型都有一个先验概率p(θ)，但先验概率需事先给定。此时问题转化为：这便是极大后验估计(MAP,Maximum A Posteriori) 目标函数带积分使用训练样本预测数据的概率密度：假设D’与D条件独立，新观测样本D’的隐藏变量(hiddenvariable)x’的后验分布参数估计考虑一个问题：有一组观测数据D，并且已知模型的形式，求参数与隐变量(或不可观测变量)Z={Z1,Z2...Zn}的后验分布：P(Z|D)。估计能不能在误差允许的范围内，用更简单、容易理解(tractable)的数学形式Q(Z)来近似P(Z|D),即两个随机变量的差异如何度量Q(Z)与P(Z|D)之间的差异性(dissimilarity) 随机分布的距离描述两个随机分布之间距离的度量，可以使用“相对熵”，或者称为Kullback-Leibler散度。相对熵两个概率密度函数为p(x)和q(x)之间的相对熵定义为带入K相对熵公式，推导 Q、P的KL散度为：对数证据：证据的下界极大化下界由于对数证据logP(D)被相应的Q所固定，为了使KL散度最小，则只要极大化L(Q)。通过选择合适的Q，使L(Q)便于计算和求极值。这样就可以得到后验P(Z|D)的近似解析表达式和证据(log evidence)的下界L(Q)，又称为变分自由能(variational free energy)。平均场理论(Mean Field Method) 数学上说，平均场的适用范围只能是完全图，或者说系统结构是well-mixed，在这种情况下，系统中的任何一个个体以等可能接触其他个体。反观物理，平均场与其说是一种方法，不如说是一种思想。其实统计物理的研究目的就是期望对宏观的热力学现象给予合理的微观理论。物理学家坚信，即便不满足完全图的假设，但既然这种“局部”到“整体”的作用得以实现，那么个体之间的局部作用相较于“全局”的作用是可以忽略不计的。根据平均场理论，变分分布Q(Z)可以通过参数和潜在变量的划分(partition)因式分解，比如将Z划分为Z1…ZM. 泛函设对于(某一函数集合内的)任意一个函数y(x)，有另一个数J(y)与之对应，则称J(y)为y(x)的泛函。泛函可以看成是函数概念的推广。这里的函数集合，即泛函的定义域，通常要求y(x)满足一定的边界条件，并且具有连续的二阶导数．这样的y(x)称为可取函数。 Euler–Lagrange方程关于变分什么是变分？变分的研究范畴是什么？它的作用是什么？下述第22页~第58页来自： Hongxin Zhang，2007-06-14，State Key Lab of CADCG, ZJU 混合高斯分布假设现在有独立同分布(iid)的训练样本X符合下列混合高斯分布如何求解高斯混合分布的三组参数步骤一：选择无信息先验分布各个分布的说明 SymDir(.)表示K维对称Dirichlet分布；它是多项式分布(multinomial)的共轭先验分布。 W(.)表示Wishart分布；对一个多元高斯分布(multivariate Gaussian distribution)，它是协方差矩阵的共轭先验。 Mult(.)表示多项分布；多项式分布是二项式分布的推广，表示在一个K维向量中只有一项为1，其它都为0. N(.)为高斯分布，在这里特别指多元高斯分布。参数各分步之间的关系：贝叶斯网络贝