主题模型lda简介.pptxVIP

下载本文档

20
0
约3.13千字
约 73页
2019-10-01 发布于浙江
举报
版权申诉

主题模型lda简介.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主题模型LDA简介;什么是主题？;case1：如果时间回到2006年，马云和杨致远的手还会握在一起吗? 阿里巴巴集团和雅虎就股权回购一事签署了最终协议。;为什么要引入主题模型？;隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)，是一种主题模型，基于一个常识性假设：文档集合中的所有文本均共享一定数量的隐含主题。基于该假设，它将整个文档集特征化为隐含主题的集合，可以将文档集中每篇文档的主题按照概率分布的形式给出。它能够发现文档-词语之间所蕴含的潜在语义关系（即主题）——将文档看成一组主题的混合分布，而主题又是词语的概率分布——从而将高维度的“文档-词语”向量空间映射到低维度的“文档-主题”和“主题-词语”空间，有效提高了文本信息处理的性能。;主题模型LDA（latent dirichlet allocation）的应用还是很广泛的，在检索、图像分类、文本分类、用户评论的主题词抽取，做feature、降维等。例如可以用主题维度来表示原来的字典维度，大大的降低了文本表示的维度。通过一些聚类等的思想，将一些细粒度的特征组合到一个新的空间上去，例如主题空间。;算法的输入是一个文档的集合D={d1, d2, d3, ... , dn}，同时还需要聚类的类别数量m；然后算法会算出将每一篇文档 di 在所有Topic上的一个概率值p；这样每篇文档都会得到一个概率的集合di=（dp1，dp2，..., dpm）；同样的文档中的所有词也会求出它对应每个Topic的概率，wi = （wp1，wp2，wp3，...，wpm）；这样就得到了两个矩阵，一个文档到Topic，一个词到Topic。这样LDA算法，就将文档和词，投射到了一组Topic上，试图通过Topic找出文档与词间，文档与文档间，词于词之间潜在的关系；由于LDA属于无监督算法，每个Topic并不会要求指定条件，但聚类后，通过统计出各个Topic上词的概率分布，那些在该Topic上概率高的词，能非常好的描述该Topic的意义。;人类是怎么生成文档的呢？;LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题：Arts、Budgets、Children、Education，然后通过学习训练，获取每个主题Topic对应的词语。如下图所示：;然后以一定的概率选取上述某个主题，再以一??的概率选取那个主题下的某个单词，不断的重复这两步，最终生成如下图所示的一篇文章（其中不同颜色的词语分别对应上图中不同主题下的词）：; LDA就是要干这事：根据给定的一篇文档，推测其主题分布。通俗来说，可以假定认为人类是根据上述文档生成过程写成了各种各样的文章，现在某小撮人想让计算机利用LDA干一件事：你计算机给我推测分析网络上各篇文章分别都写了些啥主题，且各篇文章中各个主题出现的概率大小（主题分布）是啥。;数学知识;理解LDA，可以分为下述5个步骤：;随机变量的分布;思考;划分为3段;事件E2：假设有2个数落在区间[x,x+Δx];只需要考虑1个点落在区间[x,x+Δx];X(k)的概率密度函数;Γ函数;Beta分布;利用Γ函数;Beta-Binomial 共轭引例：;贝叶斯参数估计的思考过程;思考过程;思考过程;Beta分布的概率密度曲线;共轭先验分布;从二项分布推广到多项分布从Beta分布推广到dirichlet分布;共轭分布;33/49;Beta分布的期望推广到Dirichlet分布;根据贝叶斯法则 P(x|θ)表示以预估θ为参数的x概率分布，可以直接求得。P(θ)是已有原始的θ概率分布。方案：选取P(x|θ)的共轭先验作为P(θ)的分布，这样，P(x|θ)乘以P(θ)然后归一化结果后其形式和P(θ)的形式一样。;1.unigram model 词袋模型;问题：粗暴地认为词与词之间没有联系。没有解决一词多义和歧义的现象。;文本生成模型：PLSA;;;;plsa作为topic-model ，每篇文档对应一系列topics,每个topic对应一批terms，有如下问题： 1.每篇文档及其在topic上的分布都是模型参数，也就是模型参数随着文档的数目增加而增加，这样容易导致overfitting 2.对于new doc，如何确定其topic 分布 LDA解决这个问题，没必要把每个doc-topic分布作为模型参数，为doc-topic分布增加一个先验概率，限制整体上文档的topic分布，具有先验分布的作用。 doc-topic分布服从多项分布，狄利克雷分布是其共轭先验。这样参数的个数就变成K +N*K, N为词个数，K为topic个数，与文档个数无关。;PLSA到LDA;生成模型：LDA;参数的学习;联合分布;计算