- 4
- 0
- 约 4页
- 2016-08-22 发布于浙江
- 举报
LSA与PLSA 2
引子Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如:稀疏性(Sparseness): 对于大词典,尤其是包括了生僻字的词典,文档稀疏性不可避免;多义词(Polysem): 一词多义在文档中是常见的现象,BOW模型只统计单词出现的次数,而忽略了他们之间的区别;同义词(Synonym): 同样的,在不同的文档中,或者在相同的文档中,可以有多个单词表示同一个意思;从同义词和多义词问题我们可以看到,单词也许不是文档的最基本组成元素,在单词与文档之间还有一层隐含的关系,我们称之为主题(Topic)。我们在写文章时,首先想到的是文章的主题,然后才根据主题选择合适的单词来表达自己的观点。在BOW模型中引入Topic的因素,成为了大家研究的方向,这就是我们要讲的Latent Semantic Analysis (LSA) 和probabilitistic Latent Semantic Analysis (pLSA),至于更复杂的LDA和众多其他的Topic Models,以后再详细研究。LSA简介LSA的
您可能关注的文档
最近下载
- 2010-2023历年北京市春季普通高中会考物理试卷.docx VIP
- 美国语文 12-18岁 中英文对照版.pdf VIP
- 安全网、安全帽、扣件、钢管合格证及检验报告.docx VIP
- 2025-2030美国膳食指南中文版.pdf VIP
- 9宫格数独专项练习题(每日一练,初级、中级、高级各20套题).docx VIP
- 2026年市场协同发展的利益分配与协调机制研究.docx
- 小学数学巧算24点专项练习题(每日一练,共25份).pdf VIP
- 小学数学巧算24点专项练习题(每日一练,共9份).pdf VIP
- 《2026版CSCO胰腺癌诊疗指南》内科更新内容解读.docx
- 阅读题中常见逻辑关系设错讲练(教师版).pdf VIP
原创力文档

文档评论(0)