《网络信息内容安全》讲义向量空间模型与概率检索模型(68P).pptVIP

下载本文档

4
0
约1.33万字
约 68页
2018-02-28 发布于湖北
举报

《网络信息内容安全》讲义向量空间模型与概率检索模型(68P).ppt

《网络信息内容安全》讲义向量空间模型与概率检索模型(68P)

《网络信息内容安全》讲义/张华平/2010-10 概率模型的关键问题通常，概率模型必须设法解决两个基本问题：参数估计和独立性假设。参数估计系统中可以使用余弦值来进行初始的排序，然后使用概率权重进行相关反馈。我们假设（没有任何相关信息）每个词引起相关的概率是相等的。式中　N ——文档集中文档的数量； ni ——词i索引的文档的数量； dij ——若词i在文档j中出现，则该值为1； dij ——若词i在文档j中未出现，则该值为0； qi ——若词i在查询中出现；则该值为1； qi ——若词i在查询中未出现，则该值为0。 * 《网络信息内容安全》讲义/张华平/2010-10 C是常量，可以根据检索的不同而调节。在大的文档集上，词项权重非常接近逆文档频率（N取较大值）。因此，整个表达式非常接近在向量空间模型中使用的tf-idf。结果：作者比较了这种方法计算的相似度，还有余弦系数和只通过每个词项的IDF求和得到的权重系数。新的相似度的效果要更好，但是值得注意的是，作者仅仅是在较小的克兰菲尔德文档集上做的测试。问题：在某些情况下，Croft和Harper的权重计算

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《网络信息内容安全》讲义向量空间模型与概率检索模型(68P).pptVIP