- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主题模型LDA简介;什么是主题?;case1:
如果时间回到2006年,马云和杨致远的手还会握在一起吗?
阿里巴巴集团和雅虎就股权回购一事签署了最终协议。;为什么要引入主题模型?;隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,基于一个常识性假设:文档集合中的所有文本均共享一定数量的隐含主题。基于该假设,它将整个文档集特征化为隐含主题的集合,可以将文档集中每篇文档的主题按照概率分布的形式给出。
它能够发现文档-词语之间所蕴含的潜在语义关系(即主题)——将文档看成一组主题的混合分布,而主题又是词语的概率分布——从而将高维度的“文档-词语”向量空间映射到低维度的“文档-主题”和“主题-词语”空间,有效提高了文本信息处理的性能。;主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,在检索、图像分类、文本分类、用户评论的主题词抽取,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文本表示的维度。通过一些聚类等的思想,将一些细粒度的特征组合到一个新的空间上去,例如主题空间。;算法 的输入是一个文档的集合D={d1, d2, d3, ... , dn},同时还需要聚类的类别数量m;然后算法会算出将每一篇文档 di 在 所有Topic上的一个概率值p;这样每篇文档都会得到一个概率的集合di=(dp1,dp2,..., dpm);同样的文档中的所有词也会求出 它对应每个Topic的概率,wi = (wp1,wp2,wp3,...,wpm);这样就得到了两个矩阵,一个文档到Topic,一个词到Topic。
这样LDA算法,就将文档和词,投射到了一组Topic上,试图通过Topic找出文档与词间,文档与文档间,词于词之间潜在的关系;由于LDA属于无监督算法,每个Topic并不会要求指定条件,但聚类后,通过统计出各个Topic上词的概率分布,那些在该Topic上概率高的词,能非常好的描述该Topic的意义。;人类是怎么生成文档的呢?;LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题:Arts、Budgets、Children、Education,然后通过学习训练,获取每个主题Topic对应的词语。如下图所示:;然后以一定的概率选取上述某个主题,再以一??的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章(其中不同颜色的词语分别对应上图中不同主题下的词):; LDA就是要干这事:根据给定的一篇文档,推测其主题分布。
通俗来说,可以假定认为人类是根据上述文档生成过程写成了各种各样的文章,现在某小撮人想让计算机利用LDA干一件事:你计算机给我推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。;数学知识;理解LDA,可以分为下述5个步骤:;随机变量的分布;思考;划分为3段;事件E2:假设有2个数落在区间[x,x+Δx];只需要考虑1个点落在区间[x,x+Δx];X(k)的概率密度函数;Γ函数;Beta分布;利用Γ函数;Beta-Binomial 共轭引例:;贝叶斯参数估计的思考过程;思考过程;思考过程;Beta分布的概率密度曲线;共轭先验分布;从二项分布推广到多项分布从Beta分布推广到dirichlet分布;共轭分布;33/49;Beta分布的期望推广到Dirichlet分布;根据贝叶斯法则
P(x|θ)表示以预估θ为参数的x概率分布,可以直接求得。P(θ)是已有原始的θ概率分布。
方案:选取P(x|θ)的共轭先验作为P(θ)的分布,这样,P(x|θ)乘以P(θ)然后归一化结果后其形式和P(θ)的形式一样。;1.unigram model 词袋模型;问题:粗暴地认为词与词之间没有联系。没有解决一词多义和歧义的现象。;文本生成模型:PLSA;;;;plsa作为topic-model ,每篇文档对应一系列topics,每个topic对应一批terms,有如下问题:
1.每篇文档及其在topic上的分布都是模型参数,也就是模型参数随着文档的数目增加而增加,这样容易导致overfitting
2.对于new doc,如何确定其topic 分布
LDA解决这个问题,没必要把每个doc-topic分布作为模型参数,为doc-topic分布增加一个先验概率,限制整体上文档的topic分布,具有先验分布的作用。
doc-topic分布服从多项分布,狄利克雷分布是其共轭先验。
这样参数的个数就变成K +N*K, N为词个数,K为topic个数,与文档个数无关。;PLSA到LDA;生成模型:LDA;参数的学习;联合分布;计算
您可能关注的文档
最近下载
- 湘少版2025年三年级春季学期英语阅读理解真题.pdf VIP
- 乘着歌声的翅膀降A调正谱伴奏.pdf VIP
- 游戏开发与游戏运营的策划技巧.docx VIP
- (正式版)H-Y-T 147.1-2013 海洋监测技术规程 第1部分:海水(正式版).docx VIP
- 中央八项规定精神相关解读.ppt VIP
- 通用学术英语1(张敬源)课后习题答案.docx VIP
- (统编2024版)语文八年级上册第三单元解读课件(新教材).pptx
- 河南安阳红色文化传承模式研究.pptx VIP
- 人教PEP版(2024)三年级上册英语全册教案(单元整体教学设计) .pdf
- 加快建设教育强国、科技强国、人才强国PPT课件 .pptx VIP
原创力文档


文档评论(0)