latent dirichlet allocation (lda) 隐含狄利克雷分配同济大学计算机系.ppt

下载文档 降价啦

28
0
约 100页
2017-08-16 发布于天津
举报
版权申诉
保障服务

latent dirichlet allocation (lda) 隐含狄利克雷分配同济大学计算机系.ppt

1、本文档共100页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

隐含狄利克雷分配同济大学计算机系提纲文本挖掘概述文本建模方法相关数学知识隐含狄利克雷分配文本挖掘概述定义从大量文本数据中抽取隐含的未知的可能有用的信息研究意义各类信息资源的存量和增长都呈现海量特征文本数据占据重要地位如中的可分析信息以文本形式存在文本挖掘概述文本挖掘模型文本建模方法分类文本建模方法自然语言处理和信息检索中常用的简化假设文本表示为词的无序集不考虑文法和词的前后顺序延伸主题模型布尔模型布尔模型世纪年代理论基础经典集合论和布尔逻辑布尔模型优点简单易理解易实现广泛应用于商业的信息检索系统

Latent Dirichlet Allocation (LDA)隐含狄利克雷分配同济大学计算机系提纲文本挖掘概述文本建模方法相关数学知识隐含狄利克雷分配文本挖掘概述定义从大量文本数据中抽取隐含的、未知的、可能有用的信息。（Text Mining）研究意义各类信息资源的存量和增长都呈现海量特征。文本数据占据重要地位，如Web中99%的可分析信息以文本形式存在。文本挖掘概述文本挖掘模型文本建模方法分类文本建模方法 BOW 自然语言处理和信息检索中常用的简化假设。文本表示为词的无序集。不考虑文法和词的前后顺序。延伸：主题模型（Topic Modeling）布尔模型布尔模型 20世纪50年代理论基础：经典集合论和布尔逻辑布尔模型优点简单、易理解、易实现广泛应用于商业的信息检索系统缺点二值判定准则，不支持部分匹配和分级完全忽略词频，信息丢失严重检索信息需求不易转化为布尔表达式向量空间模型 VSM Salton等 1968年提出，代表系统SMART 文本表示成项的权重向量向量空间模型权重计算向量空间模型相似度计算向量空间模型优点固定不定长文本的长度支持各种权重策略支持部分匹配和相似性排序缺点项与项之间的独立性假设欠合理没有考虑同义词和多义词现象隐含语义索引 LSI Deerwester等 1990年提出利用奇异值分解（Singular Value Decomposition, SVD）保留原来“项-文档”关联矩阵的主要模式估计潜在的语义结构，摆脱含混的“噪声” 向量空间降维到隐含语义空间隐含语义索引 SVD 隐含语义索引隐含语义索引隐含语义索引隐含语义索引隐含语义索引隐含语义索引隐含语义索引隐含语义索引优点支持概念，结构简单清楚处理同义词问题缺点物理意义不明确 SVD计算复杂性高只能部分解决多义词问题概率隐含语义索引 PLSI Hofmann等 1999年提出理论基础：概率论将项和文档同等对待，构造一个语义空间，将每个项和文档都映射到这个语义空间采用期望最大化（EM）迭代算法实现映射过程概率隐含语义索引独立性假设观察对（文档,项）是独立生成的条件独立性假设：隐含类和项是不依赖于特定的文档生成的概率隐含语义索引生成模型概率隐含语义索引概率隐含语义索引似然估计根据贝叶斯法则有对数似然函数（最大化）概率隐含语义索引与LSI的关系概率隐含语义索引 EM E步 M步概率隐含语义索引概率隐含语义索引实例概率隐含语义索引概率隐含语义索引概率隐含语义索引新文档的处理 EM训练得到p(z)、p(d|z)和p(w|z)等参数对于新文档，再次运用EM，只更新p(z)和p(d|z)，p(w|z)保持不变根据使得p(zk|dnew)最大的zk即dnew所属的主题概率隐含语义索引优点基于概率统计，语义空间具有明确的物理意义能处理多义词问题缺点不支持大规模语料（模型参数同文档数成正比）没有解决为未知文档分配主题概率的问题概率隐含语义索引 VSM、LSI和PLSI比较隐含狄利克雷分配 LDA Blei等 2002年提出一种全概率生成模型一种三层贝叶斯产生式模型主题为词汇的概率分布，文档为主题的随机混合隐含狄利克雷分配优点具有清晰的内在结构支持大规模语料库解决新文档主题概率分配的问题缺点不易理解在监督学习环境下表现欠佳相关数学知识伽玛函数(Gamma function) 阶乘函数的推广对于复数z （Re(z)0）对于正整数n 相关数学知识贝塔函数(Beta function) 又称为第一类欧拉积分对于x和y，要求Re(x)0，Re(y)0 与伽玛函数的关系相关数学知识狄利克雷分布(Dirichlet distribution) 以德国数学家Dirichlet命名记作Dir(α)，参数概率密度函数有：相关数学知识 Dirichlet分布-f k=3 相关数学知识 Dirichlet分布-log(f) k=3 相关数学知识共轭先验分布(Conjugate prior distribution) 相关数学知识可交换性(Exchangeability) de Finetti理论，解释独立性和可交换性的数学关系随机变量有限集合，π为1至N的排列 z1,z2,…,zN可交换强弱关系相关数学知识可交换性(Exchangeability) 相关数学知识相对熵(Kullback–Leibler Divergence) 库尔贝克和莱伯勒提出衡量两个正函数是否相似，完全相同则为