主题模型背景知识基础.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主题模型背景知识基础

主题模型背景知识基础 主要内容 文本分析 参数估计 共轭分布 概率基础知识 贝叶斯网络 LDA 主题模型应用 文本分析 随着存储技术和互联网的进步,各种各样的信息特别是文本信息呈指数式增长 检索这些海量的信息,挖掘出有用的知识成为主要任务 如:分析一篇文章涉及了哪些主题 一个文本数据集中包含了哪些主题 一位作者对哪些主题感兴趣 。。。。。。 文本分析 参数估计 已知观测值集合X 估计出分布参数θ 计算新观测值的概率 参数估计问题 预测/回归问题 贝叶斯法则 参数估计 后验 边缘概率 似然 先验 三种简单的估计方法 参数估计 ML——得到让可能性达到最大的参数,结果与观测值拟合最优 MAP——在ML的基础上引入先验 Bayesian——待估参数服从某种分布的随机变量 形式相同 共轭分布 便于计算 概率知识基础——Dirichlet分布 其中 概率知识基础——Multinomial分布 有三个随机变量X,Y,Z 如果条件概率密度可以写成 p(X,Y|Z) = p(X|Z) ? p(Y|Z). 那么随机变量X和Y是条件独立的 记做X╨Y|Z 概率知识基础——条件独立 贝叶斯网络是将概率统计应用于复杂领域进行不确定性推理和数据分析的工具。建立BN的目的主要是进行概率推理(probabilistic inference)。 贝叶斯网络 贝叶斯网络的提出就是把复杂的联合概率分布分解成一系列相对简单的模块,从而大大降低知识获取和概率推理的复杂度,使得可以把概率论应用于大型问题。 一个贝叶斯网络定义包括一个有向无环图(DAG)和一个条件概率表集合。DAG中每一个节点表示一个随机变量,可以是可直接观测变量或隐藏变量,而有向边表示随机变量间的条件依赖;条件概率表中的每一个元素对应DAG中唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率。 贝叶斯网络 性质:每一个节点在其直接前驱节点的值制定后,这个节点条件独立于其所有非直接前驱前辈节点。 基础:条件独立 LDA是非常重要的一个主题模型 LDA 基于Bag-of-word假设,丢弃词语、句子、段落的结构次序,但是依然能够仅仅通过单词的数量来分析文档的主题分布 每个文档表示成潜在主题的随机混合,而每个主题是一个在所有单词上的概率分布 LDA LDA——过程 对于语料库 中的每个文档 ,LDA是如下的变参数层次贝叶斯网络: 采样得到单词的个数 采样得到θ作为文档的主题分布 对于每个单词 把θ作为参数,选择话题 从分布 中选择单词 LDA——推断得到参数 文档中主题的概率 每个词的主题指定概率 LDA模型中最重要的计算任务是计算隐含变量的后验概率 变分法 抽样法 Variational Inference Gibbs Sampling 主题模型(如LDA)估计出观测到的文档、单词之间的内在联系,在一些扩展模型中(如ATM)甚至能估计出更多的信息。利用这些估计,我们可以 估计未知文档的主题结构 推断文档的相似性、作者的兴趣程度等 。。。。。。 主题模型应用 谢 谢! END

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档