主题模型培训_胡阳选读.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
TOPIC MODEL原理培训 主讲人:胡阳 TM原理培训 什么是共轭先验 共轭分布 共轭先验在贝叶斯推理中具有重要意义,当后验分布和先验分布具有相同的分布域。 其中,? ? ?表示模型中的未知参数,? ?表示样本 表示先验分布, 表示似然函数,共轭分布 表示后验分布, 是一个确定的值,已知样本情况下,值为1 共轭分布 共轭先验 Gammar 函数 魔鬼的游戏—认识Beta 分布 有一个魔盒,上面有一个按钮,每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对 抽象成数学 随机变量 X1,X2,...,Xn ~ Uniform(0,1) ? 把这 n 个随机变量排序后得到顺序统计量 X(1),X(2),...,X(n) ? 然后请问 X(k) 的分布是什么 TM有关的分布 TM有关的分布 TM有关的分布 Beta-Binomial函数 魔鬼的游戏2—Beta-Binomial 共轭 即便如此,我们能做到一次猜中的概率也不高,很不幸,你第一次没有猜中,魔鬼微笑着说:“我再仁慈一点,再给你一个机会,你按5下这个机器,你就得到了5个[0,1]之间的随机数,然后我可以告诉你这5个数中的每一个和我的第7大的数相比,谁大谁小,然后你继续猜我手头的第7大的数是多少。”这时候我们应该怎么猜测呢? TM有关的分布 TM有关的分布 贝努力分布 经典的钱币是正面k次数的概率 伯努利分布是一个离散型的随机分布 贝塔分布(恶魔宝盒) 概率密度函数满足以下条件的为贝塔分布,连续型的。 假设 贝努利分布 是 贝塔分布的 共轭的 后验分布 = 似然函数* 先验分布/ P(样本) /2013/01/lda-math-beta-dirichlet/#more-6953 Dirichlet分布 魔鬼的游戏3 加大点难度,我们重新来一次,我按魔盒20下生成20个随机数,你同时给我猜第7大和第13大的数 TM有关的分布 TM有关的分布 Dirichlet共轭 魔鬼的游戏4 TM有关的分布 多项式分布 狄利克雷分布(分布的分布) 推导过程 多项式分布 是 狄利克雷分布是 共轭的 TM原理培训 TM的产生过程 Unigram模型 每篇文档都是独立的多项式分布 存储空间很大,D(文档数)×N(词项数) 隐形语义检索(PLSA) 增加主题变量,维度降低 文档选择一个主题,与现实不符 ?举个例子,有两个句子分别如下: ? ? ? ?? ? ? ???“乔布斯离我们而去了。” ? ? ? ??? ? ? ??“苹果价格会不会降?” 2.TM的产生过程 概率隐形语义检索(LDA) 增加概率,使一篇文档产生多个主题 训练参数扩展性差,随文档数线性增长 对包含词项不在训练集中的新文档准确率很低 TM原理培训 TM-随机模拟 随机模拟(LDA-math-MCMC) 别名是蒙特卡罗方法(Monte Carlo Simulation) 始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关 乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现 二十世纪的十个最重要的算法之一 TM-随机模拟 随机模拟(MCMC 和 Gibbs Sampling) 重要的问题就是给定一个概率分布,如何在计算机中生成它的样本 其它几个著名的连续分布,包括指数分布、Gamma 分布、t 分布、F 分布、Beta 分布、Dirichlet 分布等等,也都可以通过类似的数学变换得到 当p(x)p(x)的形式很复杂,或者 p(x)p(x) 是个高维的分布的时候,样本的生成就可能很困难了,需要使用一些更加复杂的随机模拟的方法来生成样本 马氏链定理 TM-MCMC 收敛行为主要是由概率转移矩阵决定的 第nn步的时候马氏链收敛 TM-MCMC TM-MCMC TM-Gibbs Sampling TM原理培训 TM模型训练 TM模型训练 参数的意义 α 为K维向量, p(θ|α)表示选择某个文档概率分布的概率 β为K×V矩阵,

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档