网站大量收购独家精品文档,联系QQ:2885784924

latent dirichlet allocation (lda) 隐含狄利克雷分配同济大学计算机系.ppt

latent dirichlet allocation (lda) 隐含狄利克雷分配同济大学计算机系.ppt

  1. 1、本文档共100页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
隐含狄利克雷分配同济大学计算机系提纲文本挖掘概述文本建模方法相关数学知识隐含狄利克雷分配文本挖掘概述定义从大量文本数据中抽取隐含的未知的可能有用的信息研究意义各类信息资源的存量和增长都呈现海量特征文本数据占据重要地位如中的可分析信息以文本形式存在文本挖掘概述文本挖掘模型文本建模方法分类文本建模方法自然语言处理和信息检索中常用的简化假设文本表示为词的无序集不考虑文法和词的前后顺序延伸主题模型布尔模型布尔模型世纪年代理论基础经典集合论和布尔逻辑布尔模型优点简单易理解易实现广泛应用于商业的信息检索系统

Latent Dirichlet Allocation (LDA) 隐含狄利克雷分配 同济大学计算机系 提 纲 文本挖掘概述 文本建模方法 相关数学知识 隐含狄利克雷分配 文本挖掘概述 定义 从大量文本数据中抽取隐含的、未知的、可能有用的信息。(Text Mining) 研究意义 各类信息资源的存量和增长都呈现海量特征。 文本数据占据重要地位,如Web中99%的可分析信息以文本形式存在。 文本挖掘概述 文本挖掘模型 文本建模方法 分类 文本建模方法 BOW 自然语言处理和信息检索中常用的简化假设。 文本表示为词的无序集。 不考虑文法和词的前后顺序。 延伸:主题模型(Topic Modeling) 布尔模型 布尔模型 20世纪50年代 理论基础:经典集合论和布尔逻辑 布尔模型 优点 简单、易理解、易实现 广泛应用于商业的信息检索系统 缺点 二值判定准则,不支持部分匹配和分级 完全忽略词频,信息丢失严重 检索信息需求不易转化为布尔表达式 向量空间模型 VSM Salton等 1968年提出,代表系统SMART 文本表示成项的权重向量 向量空间模型 权重计算 向量空间模型 相似度计算 向量空间模型 优点 固定不定长文本的长度 支持各种权重策略 支持部分匹配和相似性排序 缺点 项与项之间的独立性假设欠合理 没有考虑同义词和多义词现象 隐含语义索引 LSI Deerwester等 1990年提出 利用奇异值分解(Singular Value Decomposition, SVD)保留原来“项-文档”关联矩阵的主要模式 估计潜在的语义结构,摆脱含混的“噪声” 向量空间降维到隐含语义空间 隐含语义索引 SVD 隐含语义索引 隐含语义索引 隐含语义索引 隐含语义索引 隐含语义索引 隐含语义索引 隐含语义索引 隐含语义索引 优点 支持概念,结构简单清楚 处理同义词问题 缺点 物理意义不明确 SVD计算复杂性高 只能部分解决多义词问题 概率隐含语义索引 PLSI Hofmann等 1999年提出 理论基础:概率论 将项和文档同等对待,构造一个语义空间,将每个项和文档都映射到这个语义空间 采用期望最大化(EM)迭代算法实现映射过程 概率隐含语义索引 独立性假设 观察对(文档,项)是独立生成的 条件独立性假设:隐含类和项是不依赖于特定的文档生成的 概率隐含语义索引 生成模型 概率隐含语义索引 概率隐含语义索引 似然估计 根据贝叶斯法则有 对数似然函数(最大化) 概率隐含语义索引 与LSI的关系 概率隐含语义索引 EM E步 M步 概率隐含语义索引 概率隐含语义索引 实例 概率隐含语义索引 概率隐含语义索引 概率隐含语义索引 新文档的处理 EM训练得到p(z)、p(d|z)和p(w|z)等参数 对于新文档,再次运用EM,只更新p(z)和p(d|z),p(w|z)保持不变 根据 使得p(zk|dnew)最大的zk即dnew所属的主题 概率隐含语义索引 优点 基于概率统计,语义空间具有明确的物理意义 能处理多义词问题 缺点 不支持大规模语料(模型参数同文档数成正比) 没有解决为未知文档分配主题概率的问题 概率隐含语义索引 VSM、LSI和PLSI比较 隐含狄利克雷分配 LDA Blei等 2002年提出 一种全概率生成模型 一种三层贝叶斯产生式模型 主题为词汇的概率分布,文档为主题的随机混合 隐含狄利克雷分配 优点 具有清晰的内在结构 支持大规模语料库 解决新文档主题概率分配的问题 缺点 不易理解 在监督学习环境下表现欠佳 相关数学知识 伽玛函数(Gamma function) 阶乘函数的推广 对于复数z (Re(z)0) 对于正整数n 相关数学知识 贝塔函数(Beta function) 又称为第一类欧拉积分 对于x和y,要求Re(x)0,Re(y)0 与伽玛函数的关系 相关数学知识 狄利克雷分布(Dirichlet distribution) 以德国数学家Dirichlet命名 记作Dir(α),参数 概率密度函数 有: 相关数学知识 Dirichlet分布-f k=3 相关数学知识 Dirichlet分布-log(f) k=3 相关数学知识 共轭先验分布(Conjugate prior distribution) 相关数学知识 可交换性(Exchangeability) de Finetti理论,解释独立性和可交换性的数学关系 随机变量有限集合 ,π为1至N的排列 z1,z2,…,zN可交换 强弱关系 相关数学知识 可交换性(Exchangeability) 相关数学知识 相对熵(Kullback–Leibler Divergence) 库尔贝克和莱伯勒提出 衡量两个正函数是否相似,完全相同则为

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档