- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
098|LDA变种模型知多少
2018-04-16洪亮劼来自北京
《AI技术内参》
我们在之前的分享中曾经介绍过文本挖掘(TextMining)中的重要工具LDA(Latent
DiricletAllocation)的基本原理。在文本挖掘中,有一项重要的工作就是分析和挖掘出文本
中隐含的结构信息,而不依赖任何提前标注(Labeled)的信息。也就是说,我们希望能够利
用文本挖掘技术来对无标签的数据进行挖掘,这是典型的无监督学习。
LDA就是一个出色的无监督学习的文本挖掘模型。这个模型在过去的十年里开启了主题模型
(TopicModel)这个领域。不少学者都利用LDA来分析各式各样的文档数据,从新闻数据
到医药文档,从考古文献到政府公文。在一段时间内,LDA成为了分析文本信息的标准工
具。而从最原始的LDA发展出来的各类模型变种,则被应用到了多种数据类型上,包括图
像、音频、混合信息、推荐系统、文档检索等等,可以说各类主题模型变种层出不穷。
今天我们就结合几篇经典论文,来看一看LDA的各种扩展模型。当然,在介绍今天的内容之
前,我们首先来回顾一下LDA模型的一些基本信息。
LDA模型的回顾
LDA模型是一个典型的产生式模型(GenerativeModel)。产生式模型的一大特点就是通过
一组概率语言,对数据的产生过程进行描述,从而对现实数据建立一个模型。注意,这个产生
过程的本质是描述的一个联合概率分布(JointDistribution)的分解过程。也就是说,这个
过程是一个虚拟的过程,真实的数据往往并不是这样产生的。这样的产生过程是模型的一个假
设,一种描述。任何一个产生过程都可以在数学上完全等价一个联合概率分布。
LDA的产生过程描述了文档以及文档中文字的产生过程。在原始的LDA论文中,作者们描述
了对于每一个文档而言的产生过程。
LDA模型的前世今生
相比于传统的文本聚类方法,LDA对于每个文档的每一个字都有一个主题下标,也就是说,
LDA是没有一个文档统一的聚类标签,而是每个字有一个聚类标签,在这里就是主题。
LDA模型的训练一直是一个难点。传统上,LDA的学习属于贝叶斯推断(Bayesian
Inference),而在2000年初期,只有MCMC算法(MarkovchainMonteCarlo,马尔科
夫链蒙特卡洛)以及VI(VariationalInference,变分推断)作为工具可以解决。在最初的
LDA论文里,作者们采用了VI;后续大多数LDA相关的论文都选择了MCMC为主的吉布斯
采样(GibbsSampling)来作为学习算法。
LDA的扩展
当LDA被提出以后,不少学者看到了这个模型的潜力,于是开始思考怎么把更多的信息融入
到LDA里面去。通过我们上面的讲解,你可以看到,LDA只是对文档的文字信息本身进行建
模。但是绝大多数的文档数据集还有很多额外的信息,如何利用这些额外信息,就成为了日后
对LDA扩展的最重要的工作。
第一个很容易想到的需要扩展的信息就是作者信息。特别是LDA最早期的应用,对于一般的
文档来说,比如科学文档或者新闻文档,都有作者信息。很多时候我们希望借用作者在写文档
时的遣词造句风格来分析作者的一些写作信息。那么,如何让LDA能够分析作者的信息呢?
这里我们分享一篇论文《用于作者和文档信息的作者主题模型》(Theauthor-topicmodel
forauthorsanddocuments)[1],这是最早利用额外信息到LDA模型中的扩展模型。文章
提出的模型叫作“作者LDA”(AuthorLDA)。这个模型的主要思想是,每篇文档都会有一
些作者信息,我们可以把这些作者编码成为一组下标(Index)。对于每一个文档来说,我们
首先从这组作者数组中,选出一个当前的作者,然后假定这个作者有一组相对应的主题。这
样,文档的主题就不是每个文档随机产生了,而是每个作者有一套主题。这个时候,我们从作
者相对应的主题分布中取出当前的主题,然后再到相应的语言模型中,采样到当前的单词。
可以看到,作者LDA和普通的LDA相比,最大的不同就是主题分布不是每个文档有一个,而
是每个作者有一个。这个主题分布决定着当前的单词是从哪一个语言模型中采样的单词。作者
LDA也采用吉布斯采样的方法学习,并且通过模型的学习之后,能够看得出不
您可能关注的文档
- 出口商品技术指南-木制品(1).pdf
- 002-精读2017年KDD最佳研究论文【萌萌家】(1).pdf
- 003-精读2017年KDD最佳应用数据科学论文【萌萌家】.pdf
- 007-精读2017年ICCV最佳研究论文【萌萌家】.pdf
- 013-WSDM2018论文精读:看谷歌团队如何做位置偏差估计【萌萌家】.pdf
- 014-WSDM2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息【萌萌家】.pdf
- 019-SIGIR2018论文精读:偏差和“流行度”之间的关系【萌萌家】.pdf
- 025-ICML2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉【萌萌家】.pdf
- 026-ICML2018论文精读:聊一聊机器学习算法的“公平性”问题【萌萌家】.pdf
- 027-ICML2018论文精读:优化目标函数的时候,有可能放大了“不公平”?【萌萌家】.pdf
文档评论(0)