2+文本分析、检索模型和基于内容的图像检索毕业论文.pptVIP

下载本文档

5
0
约1.14万字
约 60页
2016-09-18 发布于河南
举报

2+文本分析、检索模型和基于内容的图像检索毕业论文.ppt

TF*IDF 的指导思想建立在这样一条基本假设之上:在一个文本中出现很多次的单词在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外还要考虑单词区别不同类别的能力,TF*IDF法认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度 IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度。 * NMF 低秩分解 * * plsa是一种topic model，它属于生成模型，给定文档d后，以一定的概率选择d对应的主题z，然后以一定概率选择z中的词语w. PLSA的通俗理解：想象某个人要写N篇文档，他需要确定每篇文档里每个位置上的词。假定他一共有K个可选的主题，有V个可选的词项，所以，他制作了K个V面的 “主题-词项” 骰子，每个骰子对应一个主题，骰子每一面对应要选择的词项。然后，每写一篇文档会再制作一颗K面的 ”文档-主题“ 骰子；每写一个词，先扔该骰子选择主题；得到主题的结果后，使用和主题结果对应的那颗”主题-词项“骰子，扔该骰子选择要写的词。他不停的重复如上两个扔骰子步骤，最终完成了这篇文档。重复该方法N次，则写完所有的文档。在这个过程中，我们并未关注词和词之间的出现顺序，所以pLSA也是一种词袋方法；并且我们使用两层概率分布对整个样本空间建模，所以pLSA也是一种混合模

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2+文本分析、检索模型和基于内容的图像检索毕业论文.pptVIP