- 10
- 0
- 约2.76万字
- 约 49页
- 2018-12-23 发布于湖北
- 举报
通俗理解LDA主题模型
0 前言
? ? 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的前序铺垫太长(现在才意识到这些“铺垫”都是深刻理解LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入LDA的细枝末节之中),还是因为其中的数学推导细节太多,导致一直没有完整看完过。
? ? 2013年12月,在我组织的Machine Learning读书会 HYPERLINK /v_july_v/article/details/7237351 \l t21 \t _blank 第8期上,@夏粉_百度 讲机器学习中排序学习的理论和算法研究,@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似只记得沈博讲了一个汪峰写歌词的例子,依然没有理解LDA到底是怎样一个东西(但理解了LDA之后,再看沈博主题模型的 HYPERLINK /s/zrFL6OXKgKMAf \t _blank PPT会很赞)。
? ? 直到昨日下午, HYPERLINK /course/getDetail/35 \t _blank 机器学习班?第12次课上,邹讲完LDA之后,才真正明白LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现以前看不下去的文档再看时竟然一路都比较顺畅,一口气看完大部。看完大部后,思路清晰了,知道理解LDA,可以分为下述5个步骤:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA(在本文 HYPERLINK /v_july_v/article/details\l t14 \t _blank 第4 部分阐述)
一个采样:Gibbs采样
? ? 本文便按照上述5个步骤来阐述,希望读者看完本文后,能对LDA有个尽量清晰完整的了解。同时,本文基于邹讲LDA的 HYPERLINK /s/1jGghtQm \t _blank PPT、rickjin的LDA数学八卦及其它参考资料写就,可以定义为一篇学习笔记或课程笔记,当然,后续不断加入了很多自己的理解。若有任何问题,欢迎随时于本文评论下指出,thanks。
1 gamma函数
1.0 整体把握LDA
? ? 关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),本文讲后者。
? ? 另外,我先简单说下LDA的整体思想,不然我怕你看了半天,铺了太长的前奏,却依然因没见到LDA的影子而显得“心浮气躁”,导致不想再继续看下去。所以,先给你吃一颗定心丸,明白整体框架后,咱们再一步步抽丝剥茧,展开来论述。
? ? 按照wiki上的介绍,LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,是一种 HYPERLINK /wiki/%E4%B8%BB%E9%A2%98%E6%A8%A1%E5%9E%8B \t _blank 主题模型,它可以将文档集 中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。
? ? 此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
? ? 人类是怎么生成文档的呢?LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题:Arts、Budgets、Children、Education,然后通过学习训练,获取每个主题Topic对应的词语。如下图所示:
?
? ? 然后以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章(其中不同颜色的词语分别对应上图中不同主题下的词):
??
? ? 而当我们看到一篇文章后,往往喜欢推测这篇文章是如何生成的,我们可能会认为作者先确定这篇文章的几个主题,然后围绕这几个主题遣词造句,表达成文。
? ? LDA就是要干这事:根据给定的一篇文档,推测其主题分布。
? ? 通俗来说,可以假定认为人类是根据上述文档生成过程写成了各种各样的文章,现在某小撮人想让计算机利用LDA干一件事:你计算机给我推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。
您可能关注的文档
- 通风计算过程(全).doc
- 通风空调工程施工组织设计(机电工程).doc
- 通风空调工程施工作业指南——风管与配件加工制作.docx
- 通风空调及排烟系统调试方案.doc
- 通风空调施工组织设计.docx
- 通风空调调试交底内容.doc
- 通风空调系统调试方案.doc
- 通风空调专业技术规格书.doc
- 通风排烟风管及风口设计参数.doc
- 通风区安全生产岗位责任制.doc
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- 基于Boost电路的MPPT光伏发电系统:原理、设计与应用.docx VIP
- 普通国省道智慧公路建设总体技术规范.pdf VIP
- 2025中考数学冲刺抢押秘籍(四川成都版)猜押08一次函数与反比例函数综合(成都版)(解析版).docx
- 《重庆市银行业金融机构现金清分业务服务外包标准》.docx VIP
- 2025年安徽省C20教育联盟中考数学“功夫”试卷(二)+答案解析.pdf VIP
- 高考英语--词性转换背诵版+默写版+ 高三英语.docx VIP
- 2025年包头市土默特右旗小升初语文秋季入学摸底测试卷(含答案).doc VIP
- 2025中考数学冲刺抢押秘籍(四川成都版)猜押10二次函数综合应用解答题压轴(成都版)(解析版).docx
- 2025年护理抢救工作制度考试题含答案.docx VIP
- 2025中考数学冲刺抢押秘籍(四川成都版)猜押06解直角三角形及其应用(成都版)(解析版).docx VIP
原创力文档

文档评论(0)