主题模型背景知识基础.ppt

下载文档 降价啦

10
0
约1.36千字
约 18页
2017-11-10 发布于湖北
举报
版权申诉
保障服务

主题模型背景知识基础.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

主题模型背景知识基础

主题模型背景知识基础主要内容文本分析参数估计共轭分布概率基础知识贝叶斯网络 LDA 主题模型应用文本分析随着存储技术和互联网的进步,各种各样的信息特别是文本信息呈指数式增长检索这些海量的信息,挖掘出有用的知识成为主要任务如：分析一篇文章涉及了哪些主题一个文本数据集中包含了哪些主题一位作者对哪些主题感兴趣。。。。。。文本分析参数估计已知观测值集合X 估计出分布参数θ 计算新观测值的概率参数估计问题预测/回归问题贝叶斯法则参数估计后验边缘概率似然先验三种简单的估计方法参数估计 ML——得到让可能性达到最大的参数，结果与观测值拟合最优 MAP——在ML的基础上引入先验 Bayesian——待估参数服从某种分布的随机变量形式相同共轭分布便于计算概率知识基础——Dirichlet分布其中概率知识基础——Multinomial分布有三个随机变量X,Y,Z 如果条件概率密度可以写成 p(X,Y|Z) = p(X|Z) ? p(Y|Z). 那么随机变量X和Y是条件独立的记做X╨Y|Z 概率知识基础——条件独立贝叶斯网络是将概率统计应用于复杂领域进行不确定性推理和数据分析的工具。建立BN的目的主要是进行概率推理(probabilistic inference)。贝叶斯网络贝叶斯网络的提出就是把复杂的联合概率分布分解成一系列相对简单的模块，从而大大降低知识获取和概率推理的复杂度，使得可以把概率论应用于大型问题。一个贝叶斯网络定义包括一个有向无环图（DAG）和一个条件概率表集合。DAG中每一个节点表示一个随机变量，可以是可直接观测变量或隐藏变量，而有向边表示随机变量间的条件依赖；条件概率表中的每一个元素对应DAG中唯一的节点，存储此节点对于其所有直接前驱节点的联合条件概率。贝叶斯网络性质：每一个节点在其直接前驱节点的值制定后，这个节点条件独立于其所有非直接前驱前辈节点。基础：条件独立 LDA是非常重要的一个主题模型 LDA 基于Bag-of-word假设，丢弃词语、句子、段落的结构次序，但是依然能够仅仅通过单词的数量来分析文档的主题分布每个文档表示成潜在主题的随机混合，而每个主题是一个在所有单词上的概率分布 LDA LDA——过程对于语料库中的每个文档，LDA是如下的变参数层次贝叶斯网络：采样得到单词的个数采样得到θ作为文档的主题分布对于每个单词把θ作为参数，选择话题从分布中选择单词 LDA——推断得到参数文档中主题的概率每个词的主题指定概率 LDA模型中最重要的计算任务是计算隐含变量的后验概率变分法抽样法 Variational Inference Gibbs Sampling 主题模型（如LDA）估计出观测到的文档、单词之间的内在联系，在一些扩展模型中（如ATM）甚至能估计出更多的信息。利用这些估计，我们可以估计未知文档的主题结构推断文档的相似性、作者的兴趣程度等。。。。。。主题模型应用谢谢！ END