腾讯LDA.docx

下载文档 降价啦

81
0
约 11页
2017-02-03 发布于湖北
举报
版权申诉
保障服务

腾讯LDA.docx

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

腾讯LDA

2.1 主题模型的“三个过程”主题模型一般包含了三个重要的过程：生成过程、训练过程以及在线推断。生成过程定义了模型的假设以及具体的物理含义，训练过程定义了怎样由训练数据学习得出模型，在线推断定义了怎样应用模型。下面分别进行简要介绍。一般来说，主题模型是一种生成模型（生成模型可以直观的理解为给定模型，可以生成训练样本）。给定模型，其生成过程如图11：模型有2个主题，主题1关于银行（主要的词为loan、bank、money等），主题2关于河流（主要的词为river、stream、bank等）。文档1内容100%关于主题1，主题向量为1.0, 0.0，文档中每一个词的生成过程如下：以100%的概率选择主题1，再从主题1中以一定的概率挑选词。文档2内容50%关于主题1，50%关于主题2，主题向量为0.5, 0.5，文档中每一个词的生成过程如下：以均等的概率选择主题1和2，再从选中的主题中以一定的概率挑选词。文档3内容100%关于主题2，主题向量为0.0, 1.0，文档中每一个词的生成过程如下：以100%的概率选择主题2，再从主题2中以一定的概率挑选词。图11 主题模型的生成过程[9]现实的情况是我们没有模型，只有海量的互联网文档数据，此时我们希望有机器学习算法可以自动的从训练文档数据中归纳出主题模型（如图12），即得到每个主题在词表上的具体分布。通常来说，训练过程还会得到一个副产品——每篇训练文档的主题向量。图12 主题模型的训练过程[9]有了主题模型，给定新的文档，通过在线推断，我们就可以得到文档的主题向量（如图13）。图5、6、7给出了一些具体的例子。图13 主题模型的在线推断三个过程中，训练过程是难点，后文将进行重点介绍。2.2 LDA模型及其训练算法LDA（Latent Dirichlet Allocation）[10]作为一种重要的主题模型，自发表以来就引起了学术界和产业界的极大关注，相关论文层出不穷。LDA的训练算法也多种多样，下面以吉布斯采样[11,12]为例，进行简要介绍。图14 LDA训练过程跳过复杂的数学推导，基于吉布斯采样的LDA训练过程如图14所示（每个词用w表示，每个词对应的主题用z表示，图中节点z的不同颜色表示不同的主题）：Step1: 初始时，随机的给训练语料中的每一个词w赋值一个主题z，并统计两个频率计数矩阵：Doc-Topic计数矩阵Ntd，描述每个文档中的主题频率分布；Word-Topic计数矩阵Nwt，表示每个主题下词的频率分布。如图15所示，两个矩阵分别对应于图中的边上的频率计数。Step2: 遍历训练语料，按照概率重新采样其中每一个词w对应的主题z，同步更新Nwt和Ntd。Step3: 重复 step2，直到Nwt收敛。Step2中重新采样词w对应主题z时，采样公式为P(z=t|w,?)=N?wt+βN?t+βV?N?td+αtLd–1+∑tαt∝N?wt+βN?t+βV(N?td+αt)(1)其中αt和β是超参数，分别表示对Ntd和Nwt中的频率计数进行概率平滑；V为词表大小，Ld表示文档d长度，Nwt表示训练语料中主题t中词w的出现次数，Nt表示训练语料中主题t的出现次数，Ntd表示文档d中主题t的出现次数，上角标?表示剔除当前采样词w的影响（比如N?td表示减去当前采样词对应的主题后，文档d中主题t的出现次数）。图15 文档d1中词w主题重新采样事实上，以上对文档d中词w的主题z进行重新采样的公式有非常明确的物理意义，表示P(w|z)P(z|d)，可以如图15直观的表示为一个“路径选择”的过程：对当前文档d中的当前词w（图15中黑体表示），词w的“旧”主题z给出了d-z-w的一条路径（图15（1）虚线）；剔除词w对应的“旧”主题z，更新在Nwt和Ntd中的计数（图15（1）在旧路径对应的两条边上做 “-1”操作）；计算d-z-w的每一条可能路径的概率，d-z-w路径的概率等于d-z和z-w两部分路径概率的乘积即P(z|d)P(w|z)，P(z|d)和Ntd有关，P(w|z)和Nwt有关（图15（1））；依据概率对d-z-w路径进行采样，得到词w的“新”主题z（图15（2）虚线）；增加词w对应的“新”主题z，更新在Nwt和Ntd中的计数（图15（2）在新路径对应的两条边上做“+1”操作）。图16 单机版LDA训练过程在训练模型时，为了包含尽可能多的隐含语义（主题）同时保证效果，通常会使用海量的训练语料。这些互联网原始文档语料经过切词、停用词过滤、文档过滤（长度）等预处理步骤后（通常会分块进行存储），就可以作为LDA训练器的输入了。图14描述的LDA训练过程，在更大范围的训练语料上来看，如图16所示：训练语料数据块中会保存文档中的词和对应的主题(W,T)，以及文档对应的主题直方图Ntd；训练