- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
LDA工作原理
3.LDA工作原理 LDA的连续性 给定θ和β,词项分布w依赖θ(3.1),概率随机化 给定α和β下,θ,Z,W的联合概率(3.2) 给定α和β,W的概率分布(3.3) 联合(3.1)和(3.3) 3.LDA工作原理 LDA的连续性 联合(3.1)和(3.3),可得单篇文档的概率分布 假设语料库中每篇文档相互独立可交换 3.LDA工作原理 充分统计 LDA是基于贝叶斯充分统计的工作原理 LDA中多项式分布和Dirichlet分布属于指数家族 指数家族的贝叶斯统分统计 g(η)是确保分布密度函数积分为1的因数 (3.5)式两边同时对η求导,令p(x|η)=0 3.LDA工作原理 充分统计 结合(3.6)式,整理得 考虑训练多个x样本,X={x1,x2……xn} (3.10)式两边对η求导,p(X|η)=0,极大似然 ηML仅依赖于充分统计的数∑μ(x) ,N趋于无穷大 比较(3.12)和(3.9),并结合(3.11),可得ηML=η(真实的参数变量) 3.LDA工作原理 工作流程 对主题采样:βk~Dir(η) k∈[1,K] 对语料库中的第d个文档 d∈[1,D] 采样主题概率分布θd~Dir(α) 采样文档长度Nd 对文档d中的第n个单词 n∈[1,Nd] 选择隐含主题zd,n~Mult(θd) 生成一个词项wd,n~Mult(β(zd,n)) 步骤 训练,进行参数估计 测试,计算隐藏变量后验概率分布 4.期望最大化与参数估计 期望最大化 EM描述如下 已知一个概率模型,包括: 隐变量集Z; 观测集X; 参数集S. 目标:得到p(X|S)最大化的S. EM算法如下(初始化S) E步骤:以当前的Sold估计p(Z|X,S); M步骤:利用前一步的结果,对S最大化如下式子: ∑p(Z|X,Sold)lnp(Z,X|S) 4.期望最大化与参数估计 期望最大化 EM描述如下 已知一个概率模型,包括: 隐变量集Z; 观测集X; 参数集S. 目标:得到p(X|S)最大化的S. EM算法如下(初始化S) E步骤:以当前的Sold估计p(Z|X,S); M步骤:利用前一步的结果,对S最大化如下式子: ∑p(Z|X,Sold)lnp(Z,X|S) 4.期望最大化与参数估计 变分推理 根据(3.4)式可知 由于θ和β存在耦合, (3.13)的计算困难 解决办法是近似求解,采用变分推理 去掉θ与Z、Z与W之间的边,以及W节点 4.期望最大化与参数估计 变分推理 p(θ,z|w,α,β)可近似为q(θ,z|γ,φ),γ为狄利克雷参数,φ为多项式参数,变分推理求解信息增益最小时γ,φ 结合EM算法,需要估计q(θ,z|γ,φ),最大化∑q(θ,z|γ,φ)*logp(θ,z,w|α,β),得到使p(w|α,β)最大化的α,β,具体如下 4.期望最大化与参数估计 变分推理 Jensen不等式确定边界,进行近似求解 L(γ,φ;α,β)表示边界值,D(q(θ,z|γ,φ)||p(θ,z,w|α,β))表示两者的信息增益:log(w|α,β)=L+D 边界越大,信息增益越小,越真实 4.期望最大化与参数估计 变分推理 对α,β和γ,φ进行展开,Ψ是Г的一阶导数 E(log(θi|α))=Ψ(γi)-Ψ(∑jγj) 4.期望最大化与参数估计 变分推理 多项式分布φ的计算 满足约束∑φni=1,引入拉格朗日常数λ,(3.16)对φ相关 上式βiv表示p(wnv=1|zi=1), 对φ求导 令导数为0,多项式参数φni的极大值 4.期望最大化与参数估计 变分推理 Dirichlet分布参数γ的计算 无约束, (3.16)对γ相关 上式对γ求导 令导数为0, γi的极大值 (3.17)和(3.18)得L最大化时γ和φ,使p(w|α,β)最大化 γ和φ确定q(θ,z|γ,φ),作为p(θ,z|w,α,β)近似值 4.期望最大化与参数估计 参数估计 EM的使用 E步骤: 变分推理确定γ和φ,近似p(θ,z|w,α,β) M步骤:根据 α和β极大化E中p(W|α,β)边界 多项式参数β的计算 满足约束∑jβij=1,引入λ,(3.16)式对β相关 上式对β求导,令导数为0,得极大值 4.期望最大化与参数估计 参数估计 EM的使用 E步骤: 变分推理确定γ和φ,近似p(θ,z|w,α,β) M步骤:根据 α和β极大化E中p(W|α,β)边界 Dirichlet参数α的计算 无约束, (3.16)式对α相关 上式对α求导 αi不等于αj,令导数为
您可能关注的文档
最近下载
- 一种基于压力监测的输液港自动封堵装置.pdf VIP
- 菠菜种植课件PPT.pptx VIP
- 紫色复古风《莴苣姑娘》童话故事PPT模板.pptx VIP
- 盐雾试验报告-.docx VIP
- [青海]水电站厂房机电设备安装工程量清单及招标文件.doc VIP
- 拓展低空经济应用场景实施方案.pptx VIP
- 第5课 中国古代官员的选拔与管理 课件(共45张PPT) 统编版高中历史选择性必修1(内嵌视频+音频).pptx VIP
- 时间序列分析—基于Python王燕习题答案.pdf VIP
- 百度AI营销认证初级考试理论知识题库(628题).docx
- 2025年电力安全工作规程(发电厂和变电站电气部分)题库(294道) .pdf VIP
文档评论(0)