王珏-结构+平均-读Daphne Koller的“概率图模型”复习进程.pptVIP

下载本文档

2
0
约1.39万字
约 94页
2020-05-01 发布于浙江
举报
版权申诉

王珏-结构+平均-读Daphne Koller的“概率图模型”复习进程.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

构造“偶对(Pairwise)MN” 这类图有两类cluster，其一，单变量势能?i[Xi]，其二，变量偶对势能?(i, j)[Xi, Xj]，后者可以理解为cluster边上的势能。 Cluster Ci与Cj对应单变量Xi与Xj，cluster C(i, j)(Xi--Xj)对应Xi—Xj边。可以证明，“偶对MN”是cluster图。这样，这个图就可以使用消息传播的方式求解推断。 “对MN”构造容易。 Bethe Cluster图这类图有两层：其一，“大”cluster，是表现MN结构的因子? (Cluster或clique)，其二，“小”cluster，是单变量。 “大”cluster包含的变量与对应“小”变量cluster使用边连接。可以证明，这个图也是cluster图，可以使用消息传播方法求解推断。这类图容易构造。 Cluster图的优化推断算法事实上，对cluster图，因子能量泛函也不能优化成精确解，理由: (1)对边缘分布构成的多面体，每个cluster信度(?)不一定在这个多面体上，信度是对边缘分布的近似，(2)判定信度集合是否在多面体上是NP难解。优化从多面体上变为局部一致(定义如下)多面体上。伪边缘。 Cluster图的优化以下使用拉格朗日乘子推出具体算法，步骤如前。与clique树优化约束的形式完全一样，其区别仅在：?与?的作用域，clique是在clique树上，这个约束是在图的一个局部U上。在图结构下推断的本质是：计算查询变量的边缘分布，P=??。关键是?，是计算所有非查询变量取值的全组合。这个看似简单的问题，其复杂性远远超过我们的想象。总结近似推断主要涉及三类近似的方法： (1)研究对图结构描述的近似，这是本质近似。 (2)研究对目标函数的近似，对给定图结构的近似。 (3)研究计算近似算法，精确算法无效，计算近似。概率图模型近似推断核心是：“精度和效率”的折中。归根结底是表示的研究。BN如何直接使用各种近似？三类近似没有一个容易，特别是其误差性质，除了计算近似之外，并没有本质进展。相当复杂，遍地问题！一、引子二、表示三、推断四、学习五、结束语概率图模型学习任务假设：给定结构且样本是完整(所有变量被赋值)的。任务：学习参数，参数估计。CPD 方法：(1)最大似然估计, (2)Bayes预测假设：结构未知，但是，样本完整。任务：学习结构和参数。考虑一个可能结构的假设空间，结构选择变为优化问题。假设：样本不完整，或某些变量未知。任务：发现非显现表现的变量，知识发现。对BN：工具：最大似然和Bayes估计。特点：从局部到整体的学习。困难：鲁棒性，泛化。对MN：工具:最大似然, Bayes估计,迭代优化特点：鲁棒性，泛化。困难：整体的划分函数和推断。 BN的学习---目标函数学习就是计算使得L(? : D)最大的?。似然函数：数据集合D，BN的参数?或(与)图G的似然函数 L(? : D) 其中?可以是参数?(给定BN结构)，或者是G, ?(学习结构) 学习就是计算使得P(? | D)最大的?。由于后验概率依赖先验概率与似然函数，问题变为计算这两个函数的问题。 Bayes预测：数据集合D，BN的参数?或图G的后验概率。 P(? | D) 其中?可以是参数?(给定BN结构)，或者是图G(学习结构) BN的似然函数假设BN结构给定，任务是确定参数。令Xi是给定BN上的一个节点(变量)，其父辈节点集合为Pai。Xi的CPD (因子)为P(Xi | PaXi)。给定数据集合D，P(Xi | PaXi)对D的似然：其中，xi[m]是D中变量X的第m个样本的值。对给定样本集合，给定BN的似然为基于MLE的学习算法命题：令D是对变量X1,…,Xn的完全数据集合，G是定义在这个变量集合上的BN，令是使得最大的参数，则使得L(? : D)最大。意义：满足一定假设，BN的整体最大似然，可以从局部最大似然获得。学习算法：对BN的每个节点，在其父辈的条件下，根据数据集合，分别计算这个节点的最大似然。即，根据上述命题，即可获得最后解答。 BN的Bayes预测学习任务：计算后验概率分布P(?|D)，仅需计算似然函数P(D|?)和先验概率分布P(?)。Bayes预测学习就是计算这两个函数给定BN，参数考虑为随机变量，表述为分布函数。似然函数：对样本逐一计算。根据当前参数，修正参数(预测)。先验分布函数：希望先验与后验表示形式相同，Dirichlet分布。对BN的预测学习，关键是需要将整体分布分解为局部分布。其中似然计