基于LDA模型主题生成与混合建模应用研究.pdfVIP

基于LDA模型主题生成与混合建模应用研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

隐含雷分配(LDA),是一种文档生成模型,如文本语料库的离散数据集合

生成的概率模型。也称作是一个分层的贝叶斯模型,集合中的每一个项目都被建模为一

个有限混合的基本集合的。反过来,每一个概率的基础集建模为一个

无限的混合物。在文本建模中,概率了一个明确的代表性的文件。该技术是基于变

分法和经验贝叶斯参数估计的EM算法的高效近似推理。在文档建模的过程中,我们比较了

文本分类和协同过滤与一个一元模型和概率模型的混合。

7.应用及实证结果

在这一部分中,我们讨论了经验评价中的LDA建模的几个问题--文档建模,文档分类,协

同过滤。在所有的混合模型中,预期完整的日志的数据可能有局部极大值的点,所有或部分

的混合组件是彼此相等的。为了避免这些局部极大值,应适当的运用初始化算法,在实验中,

我们用五个文档来初始化每个条件的多项式分布,减少了其有效的总长度为2个字,和平

滑跨整个词汇。这是描述了一个近似Heckerman和Meila最基本的方案。

7.1文档建模

我们培养了一批潜在的变量模型,包括LDA,用两个文本语料库来比较这些模型的泛化性

能。语料库中的文件被视为未标记的,因此,我们的目标是密度估计,我们希望实现较高的

可能性,运用了测试集。特别是,我们计算出运用的测试集以评估模型的困惑。通过建模语

言约定俗成的习惯,使用单调递减的测试数据,并计算出相当于每字的可能性几何平均逆。

一个较低的困惑得分表示更好的泛化性能。3更正式,为一个测试集的M文档,困惑是:

在实验中,我们使用的语料库是科学从线虫群落(埃弗里,2002)中含5225个、

28414个独特的方面,包含16333个通讯社的文章和23075个独特条件的语料库中的一个子

集。在这两种情况下,我们用10%的数据进试,训练模型上其余的90%。在对数据的预

处理中,我们从语料库中删除了一个的列表中的50个停用词。我们进一步删除的话,只

发生一次。与LDA的单字相比,混合一元和pLSI模型描述在4节。我们训练所有的隐藏变

量模型,使用EM完全相同的停止准则,预期的对数似然函数的平均变化小于0.001%。pLSI

模型和一元混合严重的过学习问题,虽然不同。这种现象如表1所示。在一元模型

的混合元件中,过学习是一种熟悉的监督环境的现象,这种模型被称为朴素贝叶斯模型

Rennie,2),过学习现象是训练集见顶后的一个结果,这导致了一个几乎确定聚类的培

训文件(在E步骤)是用来确定每个组成这个词的概率(在M步骤)。一个以前看不见的文

件可能是最适合的混合元件之一,但可能会包含至少一个字,没有发生在培训文件,分配给

该组件。这样的话会有很小的几率,这会使新文档的困惑发生。随着k的增加,训练语

料库的文件被划分为更精细的集合,从而引起的词和小概率。对于一元的混合物,

通过变分贝叶斯平滑在5.4节方案可以缓解过度拟合现象。这确保所有的词在每个混

合成分中都会有一定的概率。在pLSI的情况下,硬聚类问题的是,每个

隐含雷分配(LDA),是一个文档生成模型,如文本语料库的离散数据集合生成

的概率模型。也称为是一个分层的贝叶斯模型,集合中的每个项目都建模为一个有限混

合的基本集合的。反过来,每个概率的基础集建模为一个无限的混合。

在文本建模中,可能了一个明显的特征性的文件。该技术是基于变的分法和贝叶参数

文档评论(0)

199****9598 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档