基于主题的关键词提取方法对比研究(中)要点讲解.docVIP

  • 8
  • 0
  • 约6.29千字
  • 约 10页
  • 2016-04-22 发布于湖北
  • 举报

基于主题的关键词提取方法对比研究(中)要点讲解.doc

验分布与似然函数是共轭的。LDA算法中,对于一个随机变量而言,其似然函数为多项式分布,并且其先验分布为Dirichlet分布,那么其后验概率仍为Dirichlet分布。LDA算法中之所以选择Dirichlet因为可以减轻计算量。给一个例子说明Dirichlet分布,假设我们在和一个不老实的人玩掷骰子游戏。按常理我们觉得骰子每一面出现的几率都是1/6,但是掷骰子的人连续掷出6,这让我们觉得骰子被做了手脚,这个骰子出现6的几率更高。而我们又不确定这个骰子出现6的概率到底是多少,所以我们猜测有50%的概率是:6出现的概率2/7,其它各面1/7;有25%的概率是:6出现的概率3/8,其它各面1/8;还有25%的概率是:每个面出现的概率都为1/6,也就是那个人没有作弊,走运而已。用图表表示如下: 0.5 概率 1/7 1/7 1/7 1/7 1/7 2/7 0.25 概率 1/8 1/8 1/8 1/8 1/8 3/8 0.25 概率 1/6 1/6 1/6 1/6 1/6 1/6 我们所猜测的值,如果设为X的话,则表示X的最自然的分布便是Dirichlet。设随机变量X服从Dirichlet分布,简写为Dir(α),即X~Dir(α)。α是一个向量,表示的是某个事件出现的次数。比如对于上例,骰子的可能输出为{1,2,3,4,5,6},假设我们分别观察到了5次1~510次6,那么α

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档