网站大量收购独家精品文档，联系QQ：2885784924

PLSA主题模型.doc

下载文档

2
0
约2.6千字
约 3页
2018-05-09 发布于河南
举报
版权申诉
保障服务

PLSA主题模型.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

PLSA主题模型

关于PLSA HYPERLINK /blog/ \l m=0t=1c=fks_087070081083089075081081082095085084082069092080094074085 默认分类 2009-10-22 00:01:15 阅读976 评论1 ??字号：大中小?订阅最近有份课程作业要求熟悉PLSA，于是就开起金山词霸，钻研老外的牛B语义分析工具——PLSA ? ?????? 背景：自然语言和文本处理是人工智能和机器学习方面的一个重大的挑战。在这个领域中的任何巨大进步都会对信息检索，信息过滤，智能接口，语言识别，自然语言处理，机器学习产生重大的影响。机器学习的主要难点在于“被阐述”的词法和“真正要表达”的语义的区别。产生这个问题的原因主要是：1.一个单词可能有多个意思和多个用法。2.同义词和近义词，而且根据不同的语境或其他因素，不同的单词也有可能表示相同的意思。 ?????? LSA是处理这类问题的著名技术。其主要思想就是映射高维向量到潜在语义空间，使其降维。LSA的目标就是要寻找到能够很好解决实体间词法和语义关系的数据映射。正是由于这些特性，使得LSA成为相当有价值并被广泛应用的分析工具。PLSA是以统计学的角度来看待LSA，相比于标准的LSA，他的概率学变种有着更巨大的影响。概念：概率潜在语义分析基于双模式和共现的数据分析方法延伸的经典的统计学方法。概率潜在语义分析应用于信息检索，过滤，自然语言处理，文本的机器学习或者其他相关领域。概率潜在语义分析与标准潜在语义分析的不同是，标准潜在语义分析是以共现表（就是共现的矩阵）的奇异值分解的形式表现的，而概率潜在语义分析却是基于派生自LCM的混合矩阵分解。考虑到word和doc共现形式，概率潜在语义分析基于多项式分布和条件分布的混合来建模共现的概率。所谓共现其实就是W和D的一个矩阵，所谓双模式就是在W和D上同时进行考虑。 PLSA的缺点： PLSA有时会出现过拟合的现象。所谓过拟合（Overfit），是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。解决办法，要避免过拟合的问题，PLSA使用了一种广泛应用的最大似然估计的方法，期望最大化。PLSA中训练参数的值会随着文档的数目线性递增。PLSA可以生成其所在数据集的的文档的模型，但却不能生成新文档的模型。 ? 关于SVD： LSA的基本思想就是把高维的文档降到低维空间，那个空间被称为潜在语义空间。这个映射必须是严格线性的而且是基于共现表（就是那个矩阵啦）的奇异值分解。 LSA的算法： PLSA是LSA的概率学延伸，所以我们首先要知道LSA的算法。假设有N篇的document，D={d_1, … ,d_N}，和M个words，W={w_1, … ,w_M}，再设置K个潜在类Z={z_1, … ,z_K}。首先，建立一个N*M的项——文档矩阵，统计频率。矩阵A中的每一项分别对应了DiWj出现的频率。这个就是前面说的共现表。接着，对这个矩阵做奇异值分解。这个是奇异值分解的公式。A(n*m) = U(n*n) E(n*m) V(m*m) 保留奇异值矩阵E的K个特征值（奇异值是特征值的非负平方根）。然后求矩阵A的共轭转置A*，然后奇异值分解A*。 A*(n*m) = U(n*k) E(k*k) V(k*m) A* ≈ A 这时，一个项（term）其实就是K维向量空间的的一个向量。把意义相同的项（term）做同一映射。到这里就很清楚的看出来，LSA没有建立统计学基础。但是PLSA就解决了这个问题。 ? PLSA： PLSA是更为先进的方法。他解决了同义词和多义词的问题，利用了强化的期望最大化算法（EM）来训练隐含类（潜在类）。而且相对了LSA，有了坚实的统计学基础。 PLSA的建模——层面模型层面模型就是关联于潜在类Z的共现表的潜在可变模型。在层面模型中，文档被视为潜在的K个层面的混合。每一个层面就是word对于z(潜在类)的概率分布。 PLSA的建模——数据的共现对于每一组（w,d）都使之与潜在变量z关联。 PLSA的建模——预测words 已经的是文档的概率，首先要计算潜在类Z根据条件概率D，生成单词W根据条件概率Z。 PLSA的公式： P(w,d) =∑P(c)P(d | c)P(w | c) = P(d)∑P(c | d)P(w | c)注：这里的C和上面说的Z是一样的。公式解析：第一个公式是对称公式，在这个公式中,W和D都是以相同的方式（都用了W和D基于C的条件概率）通过潜在类C处理的。第二个公式是

您可能关注的文档

最近下载

文档评论（0）

xy88118 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧！本网站所有资料为用户分享上传，若发现您的权利被侵害，请联系24小时智能客服，如遇紧急情况请联系侵权客服QQ：2885784724（客服上班时间为9:00-18:30）；若您有其他疑问或建议，可点击此处联系我们，上传者QQ群:751299218

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992