《网络信息内容安全》讲义向量空间模型与概率检索模型(68P).pptVIP

  • 4
  • 0
  • 约1.33万字
  • 约 68页
  • 2018-02-28 发布于湖北
  • 举报

《网络信息内容安全》讲义向量空间模型与概率检索模型(68P).ppt

《网络信息内容安全》讲义向量空间模型与概率检索模型(68P)

《网络信息内容安全》讲义/张华平/2010-10 概率模型的关键问题 通常,概率模型必须设法解决两个基本问题: 参数估计和独立性假设。 参数估计 系统中可以使用余弦值来进行初始的排序,然后使用概率权重进行相关 反馈。 我们假设(没有任何相关信息)每个词引起相关的概率是相等的。 式中 N ——文档集中文档的数量; ni ——词i索引的文档的数量; dij ——若词i在文档j中出现,则该值为1; dij ——若词i在文档j中未出现,则该值为0; qi ——若词i在查询中出现;则该值为1; qi ——若词i在查询中未出现,则该值为0。 * 《网络信息内容安全》讲义/张华平/2010-10 C是常量,可以根据检索的不同而调节。在大的文档集上,词项权重 非常接近逆文档频率 (N取较大值)。因此,整个表达式 非常接近在向量空间模型中使用的tf-idf。 结果:作者比较了这种方法计算的相似度,还有余弦系数和只通过每个词项的IDF求和得到的权重系数。新的相似度的效果要更好,但是值得注意的是,作者仅仅是在较小的克兰菲尔德文档集上做的测试。 问题:在某些情况下,Croft和Harper的权重计算

文档评论(0)

1亿VIP精品文档

相关文档