- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种词位置相关的LDA模型.PDF
2013 中国指挥控制大会论文集
一种词位置相关的 LDA 模型
1,2 1
丁兆云 ,王晖
(1国防科学技术大学信息系统与管理学院 长沙 410073, 2国防科学技术大学信息系统与管理学院国防科技重点实验室 长沙
410073)
摘要:Blei 提出的 LDA 模型通过对主题反复抽样产生文本中的每个词,而对产生的每个词在文本中的位置没有做抽样。本文
在传统的 LDA 模型基础上,抽样每个词出现位置的概率分布,提出了词位置相关的 LDA 模型(PLDA )。同时针对不同的位
置项定义不同的词贡献度,结合词-位置概率分布以及合适的词贡献度修正主题-词的概率分布,PLDA 在一定程度上提高了主
题-词可解释精度。实验说明了通过定义不同位置项合适的词贡献度,在 NIPS 数据集上,PLDA 能够提高主题-词可解释平均
精度。
关键词:LDA ;概率主题模型;词位置;词贡献度;词干扰
中图法分类号: TP393.08
0 引言
概率主题模型(Probabilistic Topic Models )近年来得到非常广泛应用,包括在文本分割[1,2],文本过滤
[3],文本分类[4],主题分析[5]等领域。概率主题模型是从潜在语义索引 LSI (Latent Semantic Index )发展
而来,通过定义一种概率产生式规则来模拟文本生成过程。概率主题模型基本观点是:文档是主题的混合,
主题是词空间上的概率分布。
潜在语义索引 LSI 也称潜在语义分析 LSA (Latent Semantic Analysis ),是 1988 年 S.T. Dumais 等人提出
了一种新的信息检索代数模型[6],用于知识获取和展示的计算理论和方法,它使用统计计算的方法对大量
文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词和文本,
达到消除词之间的相关性和简化文本向量实现降维的目的。潜在语义分析的基本观点是:把高维的向量空
间模型(VSM )表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解
SVD (Singular Value Decomposition )来实现的。
在 LSA 基础上,哈夫曼在 1999 年引进了 PLSI (Probabilistic Latent Semantic Index )模型,也叫aspect
模型[7]。该模型如图 1 所示,其生成公式为:
p (d , w ) p (d ) p (w | z )p (z | d )
n ∑ n (1)
z
PLSI 首先根据特定的文档 d,根据p (z | d ) 选择其主题 z ,然后根据p (wn | z ) 生成文档中的词 w 。PLSI
模型对文档中主题的混合比例没有做任何假设,使得模型中的主题混合比例与特定文档相关,因此缺乏处
理新文档的自然方法,待估参数的数量随着文档数量的增多线性增长,模型过度拟合。
Fig. 1 The aspect model
图1 aspect模型
针对这些问题,Blei 等[8]在 2003 年提出的 LDA (Latent Dirichlet Allocation ),在PLSI 的基础上,用一
个服从 Dirichlet 分布的 K 维隐含随机变量表示文档的主题混合比例,模拟文档的产生过程。由于该模型将
主题混合权重θ视为 k 维参数的潜在随机变量,而非与训练数据直接联系的个体参数集合,克服了 PLSI 模
文档评论(0)