098-LDA变种模型知多少【萌萌家】.pdf

下载文档

0
0
约4.41千字
约 5页
2025-03-14 发布于山东
举报
版权申诉
保障服务

098-LDA变种模型知多少【萌萌家】.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

098|LDA变种模型知多少

2018-04-16洪亮劼来自北京

《AI技术内参》

我们在之前的分享中曾经介绍过文本挖掘（TextMining）中的重要工具LDA（Latent

DiricletAllocation）的基本原理。在文本挖掘中，有一项重要的工作就是分析和挖掘出文本

中隐含的结构信息，而不依赖任何提前标注（Labeled）的信息。也就是说，我们希望能够利

用文本挖掘技术来对无标签的数据进行挖掘，这是典型的无监督学习。

LDA就是一个出色的无监督学习的文本挖掘模型。这个模型在过去的十年里开启了主题模型

（TopicModel）这个领域。不少学者都利用LDA来分析各式各样的文档数据，从新闻数据

到医药文档，从考古文献到政府公文。在一段时间内，LDA成为了分析文本信息的标准工

具。而从最原始的LDA发展出来的各类模型变种，则被应用到了多种数据类型上，包括图

像、音频、混合信息、推荐系统、文档检索等等，可以说各类主题模型变种层出不穷。

今天我们就结合几篇经典论文，来看一看LDA的各种扩展模型。当然，在介绍今天的内容之

前，我们首先来回顾一下LDA模型的一些基本信息。

LDA模型的回顾

LDA模型是一个典型的产生式模型（GenerativeModel）。产生式模型的一大特点就是通过

一组概率语言，对数据的产生过程进行描述，从而对现实数据建立一个模型。注意，这个产生

过程的本质是描述的一个联合概率分布（JointDistribution）的分解过程。也就是说，这个

过程是一个虚拟的过程，真实的数据往往并不是这样产生的。这样的产生过程是模型的一个假

设，一种描述。任何一个产生过程都可以在数学上完全等价一个联合概率分布。

LDA的产生过程描述了文档以及文档中文字的产生过程。在原始的LDA论文中，作者们描述

了对于每一个文档而言的产生过程。

LDA模型的前世今生

相比于传统的文本聚类方法，LDA对于每个文档的每一个字都有一个主题下标，也就是说，

LDA是没有一个文档统一的聚类标签，而是每个字有一个聚类标签，在这里就是主题。

LDA模型的训练一直是一个难点。传统上，LDA的学习属于贝叶斯推断（Bayesian

Inference），而在2000年初期，只有MCMC算法（MarkovchainMonteCarlo，马尔科

夫链蒙特卡洛）以及VI（VariationalInference，变分推断）作为工具可以解决。在最初的

LDA论文里，作者们采用了VI；后续大多数LDA相关的论文都选择了MCMC为主的吉布斯

采样（GibbsSampling）来作为学习算法。

LDA的扩展

当LDA被提出以后，不少学者看到了这个模型的潜力，于是开始思考怎么把更多的信息融入

到LDA里面去。通过我们上面的讲解，你可以看到，LDA只是对文档的文字信息本身进行建

模。但是绝大多数的文档数据集还有很多额外的信息，如何利用这些额外信息，就成为了日后

对LDA扩展的最重要的工作。

第一个很容易想到的需要扩展的信息就是作者信息。特别是LDA最早期的应用，对于一般的

文档来说，比如科学文档或者新闻文档，都有作者信息。很多时候我们希望借用作者在写文档

时的遣词造句风格来分析作者的一些写作信息。那么，如何让LDA能够分析作者的信息呢？

这里我们分享一篇论文《用于作者和文档信息的作者主题模型》（Theauthor-topicmodel

forauthorsanddocuments）[1]，这是最早利用额外信息到LDA模型中的扩展模型。文章

提出的模型叫作“作者LDA”（AuthorLDA）。这个模型的主要思想是，每篇文档都会有一

些作者信息，我们可以把这些作者编码成为一组下标（Index）。对于每一个文档来说，我们

首先从这组作者数组中，选出一个当前的作者，然后假定这个作者有一组相对应的主题。这

样，文档的主题就不是每个文档随机产生了，而是每个作者有一套主题。这个时候，我们从作

者相对应的主题分布中取出当前的主题，然后再到相应的语言模型中，采样到当前的单词。

可以看到，作者LDA和普通的LDA相比，最大的不同就是主题分布不是每个文档有一个，而

是每个作者有一个。这个主题分布决定着当前的单词是从哪一个语言模型中采样的单词。作者

LDA也采用吉布斯采样的方法学习，并且通过模型的学习之后，能够看得出不

您可能关注的文档

文档评论（0）

133****9720 + 关注: 实名认证

内容提供者

物业管理师证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

更多 >

098-LDA变种模型知多少【萌萌家】.pdf