2016工作原理.pptVIP

  • 7
  • 0
  • 约2.84千字
  • 约 24页
  • 2016-11-23 发布于北京
  • 举报
2016工作原理

3.LDA工作原理 LDA的连续性 给定θ和β,词项分布w依赖θ(3.1),概率随机化 给定α和β下,θ,Z,W的联合概率(3.2) 给定α和β,W的概率分布(3.3) 联合(3.1)和(3.3) 3.LDA工作原理 LDA的连续性 联合(3.1)和(3.3),可得单篇文档的概率分布 假设语料库中每篇文档相互独立可交换 3.LDA工作原理 充分统计 LDA是基于贝叶斯充分统计的工作原理 LDA中多项式分布和Dirichlet分布属于指数家族 指数家族的贝叶斯统分统计 g(η)是确保分布密度函数积分为1的因数 (3.5)式两边同时对η求导,令p(x|η)=0 3.LDA工作原理 充分统计 结合(3.6)式,整理得 考虑训练多个x样本,X={x1,x2……xn} (3.10)式两边对η求导,p(X|η)=0,极大似然 ηML仅依赖于充分统计的数∑μ(x) ,N趋于无穷大 比较(3.12)和(3.9),并结合(3.11),可得ηML=η(真实的参数变量) 3.LDA工作原理 工作流程 对主题采样:βk~Dir(η) k∈[1,K] 对语料库中的第d个文档 d∈[1,D] 采样主题概率分布θd~Dir(α) 采样文档长度Nd 对文档d中的第n个单词 n∈[1,Nd]

文档评论(0)

1亿VIP精品文档

相关文档