隐含主题分析和大规模机器学习.pptVIP

  • 3
  • 0
  • 约4.22千字
  • 约 42页
  • 2017-02-15 发布于湖北
  • 举报
LDA Training via Gibbs Sampling w … z w z w z w z w … z w z w z w z z z Doc_1 …… Doc_n Step2 : 重新采样每个topic, 更新模型,直到收敛 z z z w1 w2 wn t1 t2 tk LDA Training via Gibbs Sampling w … z w z w … z w z z z Doc_1 …… Doc_n Step3 : 输出模型参数 Topic-Word matrix w1 w2 wn t1 t2 tk LDA Inference via Gibbs Sampling 对新来的文档中的词采样 n 次 w … z w z z Doc_new w1 w2 wn t1 t2 tk P(topic|word) P(topic|document) Parallel LDA Training 文档数量巨大, Map-Reduce Parallel LDA Training w1 w2 … wn t1 t2 … tk 模型太大了,内存存放不下 1500 * 300,000 * 8B = 3.6GB 模型按 vocab 分片加载, 多次扫描文档 LDA 正确性验证 每张图片是一个 Topic Size 512 x 512 每个点(i,j)代表一个

文档评论(0)

1亿VIP精品文档

相关文档