王珏-结构+平均-读Daphne Koller的“概率图模型”复习进程.pptVIP

王珏-结构+平均-读Daphne Koller的“概率图模型”复习进程.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
构造“偶对(Pairwise)MN” 这类图有两类cluster,其一,单变量势能?i[Xi],其二,变量偶对势能?(i, j)[Xi, Xj],后者可以理解为cluster边上的势能。 Cluster Ci与Cj对应单变量Xi与Xj,cluster C(i, j)(Xi--Xj)对应Xi—Xj边。 可以证明,“偶对MN”是cluster图。这样,这个图就可以使用消息传播的方式求解推断。 “对MN”构造容易。 Bethe Cluster图 这类图有两层:其一,“大”cluster,是表现MN结构的因子? (Cluster或clique),其二,“小”cluster,是单变量。 “大”cluster包含的变量与对应“小”变量cluster使用边连接。 可以证明,这个图也是cluster图,可以使用消息传播方法求解推断。这类图容易构造。 Cluster图的优化推断算法 事实上,对cluster图,因子能量泛函也不能优化成精确解,理由: (1)对边缘分布构成的多面体,每个cluster信度(?)不一定在这个多面体上,信度是对边缘分布的近似,(2)判定信度集合是否在多面体上是NP难解。优化从多面体上变为局部一致(定义如下)多面体上。伪边缘。 Cluster图的优化 以下使用拉格朗日乘子推出具体算法,步骤如前。 与clique树优化约束的形式完全一样,其区别仅在:?与?的作用域,clique是在clique树上,这个约束是在图的一个局部U上。 在图结构下推断的本质是:计算查询变量的边缘分布,P=??。关键是?,是计算所有非查询变量取值的全组合。这个看似简单的问题,其复杂性远远超过我们的想象。 总结 近似推断主要涉及三类近似的方法: (1)研究对图结构描述的近似,这是本质近似。 (2)研究对目标函数的近似,对给定图结构的近似。 (3)研究计算近似算法,精确算法无效,计算近似。 概率图模型近似推断核心是:“精度和效率”的折中。归根结底是表示的研究。BN如何直接使用各种近似? 三类近似没有一个容易,特别是其误差性质,除了计算近似之外,并没有本质进展。相当复杂,遍地问题! 一、引子 二、表示 三、推断 四、学习 五、结束语 概率图模型学习任务 假设:给定结构且样本是完整(所有变量被赋值)的。 任务:学习参数,参数估计。CPD 方法:(1)最大似然估计, (2)Bayes预测 假设:结构未知,但是,样本完整。 任务:学习结构和参数。 考虑一个可能结构的假设空间,结构选择变为优化问题。 假设:样本不完整,或某些变量未知。 任务:发现非显现表现的变量,知识发现。 对BN: 工具:最大似然和Bayes估计。 特点:从局部到整体的学习。 困难:鲁棒性,泛化。 对MN: 工具:最大似然, Bayes估计,迭代优化 特点:鲁棒性,泛化。 困难:整体的划分函数和推断。 BN的学习---目标函数 学习就是计算使得L(? : D)最大的?。 似然函数:数据集合D,BN的参数?或(与)图G的似然函数 L(? : D) 其中?可以是参数?(给定BN结构),或者是G, ?(学习结构) 学习就是计算使得P(? | D)最大的?。由于后验概率依赖先验概率与似然函数,问题变为计算这两个函数的问题。 Bayes预测:数据集合D,BN的参数?或图G的后验概率。 P(? | D) 其中?可以是参数?(给定BN结构),或者是图G(学习结构) BN的似然函数 假设BN结构给定,任务是确定参数。 令Xi是给定BN上的一个节点(变量),其父辈节点集合为Pai。Xi的CPD (因子)为P(Xi | PaXi)。给定数据集合D,P(Xi | PaXi)对D的似然: 其中,xi[m]是D中变量X的第m个样本的值。 对给定样本集合,给定BN的似然为 基于MLE的学习算法 命题:令D是对变量X1,…,Xn的完全数据集合,G是定义在这个变量集合上的BN,令 是使得 最大的参数,则 使得L(? : D)最大。 意义:满足一定假设,BN的整体最大似然,可以从局部最大似然获得。 学习算法:对BN的每个节点,在其父辈的条件下,根据数据集合,分别计算这个节点的最大似然。即, 根据上述命题,即可获得最后解答。 BN的Bayes预测学习 任务:计算后验概率分布P(?|D),仅需计算似然函数P(D|?)和先验概率分布P(?)。Bayes预测学习就是计算这两个函数 给定BN,参数考虑为随机变量,表述为分布函数。 似然函数:对样本逐一计算。根据当前参数,修正参数(预测)。 先验分布函数:希望先验与后验表示形式相同,Dirichlet分布。 对BN的预测学习,关键是需要将整体分布分解为局部分布。 其中 似然计

文档评论(0)

135****7705 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档