- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
隐含雷分配(LDA),是一种文档生成模型,如文本语料库的离散数据集合
生成的概率模型。也称作是一个分层的贝叶斯模型,集合中的每一个项目都被建模为一
个有限混合的基本集合的。反过来,每一个概率的基础集建模为一个
无限的混合物。在文本建模中,概率了一个明确的代表性的文件。该技术是基于变
分法和经验贝叶斯参数估计的EM算法的高效近似推理。在文档建模的过程中,我们比较了
文本分类和协同过滤与一个一元模型和概率模型的混合。
7.应用及实证结果
在这一部分中,我们讨论了经验评价中的LDA建模的几个问题--文档建模,文档分类,协
同过滤。在所有的混合模型中,预期完整的日志的数据可能有局部极大值的点,所有或部分
的混合组件是彼此相等的。为了避免这些局部极大值,应适当的运用初始化算法,在实验中,
我们用五个文档来初始化每个条件的多项式分布,减少了其有效的总长度为2个字,和平
滑跨整个词汇。这是描述了一个近似Heckerman和Meila最基本的方案。
7.1文档建模
我们培养了一批潜在的变量模型,包括LDA,用两个文本语料库来比较这些模型的泛化性
能。语料库中的文件被视为未标记的,因此,我们的目标是密度估计,我们希望实现较高的
可能性,运用了测试集。特别是,我们计算出运用的测试集以评估模型的困惑。通过建模语
言约定俗成的习惯,使用单调递减的测试数据,并计算出相当于每字的可能性几何平均逆。
一个较低的困惑得分表示更好的泛化性能。3更正式,为一个测试集的M文档,困惑是:
在实验中,我们使用的语料库是科学从线虫群落(埃弗里,2002)中含5225个、
28414个独特的方面,包含16333个通讯社的文章和23075个独特条件的语料库中的一个子
集。在这两种情况下,我们用10%的数据进试,训练模型上其余的90%。在对数据的预
处理中,我们从语料库中删除了一个的列表中的50个停用词。我们进一步删除的话,只
发生一次。与LDA的单字相比,混合一元和pLSI模型描述在4节。我们训练所有的隐藏变
量模型,使用EM完全相同的停止准则,预期的对数似然函数的平均变化小于0.001%。pLSI
模型和一元混合严重的过学习问题,虽然不同。这种现象如表1所示。在一元模型
的混合元件中,过学习是一种熟悉的监督环境的现象,这种模型被称为朴素贝叶斯模型
(
Rennie,2),过学习现象是训练集见顶后的一个结果,这导致了一个几乎确定聚类的培
训文件(在E步骤)是用来确定每个组成这个词的概率(在M步骤)。一个以前看不见的文
件可能是最适合的混合元件之一,但可能会包含至少一个字,没有发生在培训文件,分配给
该组件。这样的话会有很小的几率,这会使新文档的困惑发生。随着k的增加,训练语
料库的文件被划分为更精细的集合,从而引起的词和小概率。对于一元的混合物,
通过变分贝叶斯平滑在5.4节方案可以缓解过度拟合现象。这确保所有的词在每个混
合成分中都会有一定的概率。在pLSI的情况下,硬聚类问题的是,每个
隐含雷分配(LDA),是一个文档生成模型,如文本语料库的离散数据集合生成
的概率模型。也称为是一个分层的贝叶斯模型,集合中的每个项目都建模为一个有限混
合的基本集合的。反过来,每个概率的基础集建模为一个无限的混合。
在文本建模中,可能了一个明显的特征性的文件。该技术是基于变的分法和贝叶参数
您可能关注的文档
最近下载
- 《矿物学》全套教学课件.pptx
- 人教版数学四年级下册 典型例题系列之第一单元四则运算的计算题部分(原卷版).pdf VIP
- 三年级数学下册典型例题系列之第七单元小数的初步认识(原卷版)人教版.docx VIP
- 2023届高三数学复习精品教学课件+空间几何体的外接球、内切球(1).pptx VIP
- 超星尔雅学习通《美的历程:美学导论(中国社会科学院)》2025章节测试附答案.docx
- 2、附件《合规管理体系内部审核表》.docx VIP
- 2025节能宣传周与全国低碳日宣讲.pptx VIP
- 《水环境自动监测站运维技术规范》.pdf VIP
- 加速康复外科中国专家共识及路径管理指南(2025年版).docx
- 2025年秋(新人教版)三年级数学上册第六单元《6.1.1 几分之一》课件教学PPT(新教材).pptx
原创力文档


文档评论(0)