- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
TOPIC MODEL原理培训
主讲人:胡阳
TM原理培训
什么是共轭先验
共轭分布
共轭先验在贝叶斯推理中具有重要意义,当后验分布和先验分布具有相同的分布域。
其中,? ? ?表示模型中的未知参数,? ?表示样本
表示先验分布, 表示似然函数,共轭分布
表示后验分布, 是一个确定的值,已知样本情况下,值为1
共轭分布
共轭先验
Gammar 函数
魔鬼的游戏—认识Beta 分布
有一个魔盒,上面有一个按钮,每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对
抽象成数学 随机变量 X1,X2,...,Xn ~ Uniform(0,1) ? 把这 n 个随机变量排序后得到顺序统计量 X(1),X(2),...,X(n) ? 然后请问 X(k) 的分布是什么
TM有关的分布
TM有关的分布
TM有关的分布
Beta-Binomial函数
魔鬼的游戏2—Beta-Binomial 共轭
即便如此,我们能做到一次猜中的概率也不高,很不幸,你第一次没有猜中,魔鬼微笑着说:“我再仁慈一点,再给你一个机会,你按5下这个机器,你就得到了5个[0,1]之间的随机数,然后我可以告诉你这5个数中的每一个和我的第7大的数相比,谁大谁小,然后你继续猜我手头的第7大的数是多少。”这时候我们应该怎么猜测呢?
TM有关的分布
TM有关的分布
贝努力分布
经典的钱币是正面k次数的概率
伯努利分布是一个离散型的随机分布
贝塔分布(恶魔宝盒)
概率密度函数满足以下条件的为贝塔分布,连续型的。
假设
贝努利分布 是 贝塔分布的 共轭的
后验分布 = 似然函数* 先验分布/ P(样本)
/2013/01/lda-math-beta-dirichlet/#more-6953
Dirichlet分布
魔鬼的游戏3
加大点难度,我们重新来一次,我按魔盒20下生成20个随机数,你同时给我猜第7大和第13大的数
TM有关的分布
TM有关的分布
Dirichlet共轭
魔鬼的游戏4
TM有关的分布
多项式分布
狄利克雷分布(分布的分布)
推导过程
多项式分布 是 狄利克雷分布是 共轭的
TM原理培训
TM的产生过程
Unigram模型
每篇文档都是独立的多项式分布
存储空间很大,D(文档数)×N(词项数)
隐形语义检索(PLSA)
增加主题变量,维度降低
文档选择一个主题,与现实不符
?举个例子,有两个句子分别如下:
? ? ? ?? ? ? ???“乔布斯离我们而去了。”
? ? ? ??? ? ? ??“苹果价格会不会降?”
2.TM的产生过程
概率隐形语义检索(LDA)
增加概率,使一篇文档产生多个主题
训练参数扩展性差,随文档数线性增长
对包含词项不在训练集中的新文档准确率很低
TM原理培训
TM-随机模拟
随机模拟(LDA-math-MCMC)
别名是蒙特卡罗方法(Monte Carlo Simulation)
始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关
乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现
二十世纪的十个最重要的算法之一
TM-随机模拟
随机模拟(MCMC 和 Gibbs Sampling)
重要的问题就是给定一个概率分布,如何在计算机中生成它的样本
其它几个著名的连续分布,包括指数分布、Gamma 分布、t 分布、F 分布、Beta 分布、Dirichlet 分布等等,也都可以通过类似的数学变换得到
当p(x)p(x)的形式很复杂,或者 p(x)p(x) 是个高维的分布的时候,样本的生成就可能很困难了,需要使用一些更加复杂的随机模拟的方法来生成样本
马氏链定理
TM-MCMC
收敛行为主要是由概率转移矩阵决定的
第nn步的时候马氏链收敛
TM-MCMC
TM-MCMC
TM-Gibbs Sampling
TM原理培训
TM模型训练
TM模型训练
参数的意义
α 为K维向量, p(θ|α)表示选择某个文档概率分布的概率
β为K×V矩阵,
您可能关注的文档
最近下载
- 2025年三元食品面试题目及答案.doc VIP
- PEP小学英语五年级上册第三单元测试卷(含听力材料及标准答案).doc VIP
- 万里路测试题及答案.doc
- township梦想小镇攻略-价格-时间-配方表.xls VIP
- 35kV输电线路工程施工强制性条文执行检查表.pdf VIP
- 2025年第三节 妊娠剧吐.pptx VIP
- 2025年第三季度预备党员入党积极分子思想汇报材料.docx VIP
- 医学课件-综合医院中西医结合科(中医科)人员配置和人才培养.pptx VIP
- TCRHA 089-2024 成人床旁心电监测护理规程.pdf VIP
- 傅里叶变换红外光谱-傅里叶红外光谱课件.pptx VIP
原创力文档


文档评论(0)