lecture6 信息检索导论第6章.pptxVIP

  • 10
  • 0
  • 约3.37千字
  • 约 30页
  • 2018-02-24 发布于浙江
  • 举报
lecture6 信息检索导论第6章

第6讲 文档评分、词项权重计算及向量空间模型 上一讲回顾 参数化索引及域索引 词项频率及权重计算 向量空间模型提纲 上一讲回顾 排序式检索 词项频率词项频率 tf-idf权重计算 向量空间模型本讲内容对搜索结果排序(Ranking) : 为什么排序相当重要?词项频率(Term Frequency, TF): 排序中的重要因子Tf-idf 权重计算方法: 最出名的经典排序方法向量空间模型(Vector space model): 信息检索中最重要的形式化模型之一 (其他模型还包括布尔模型和概率模型)排序式检索(Ranked retrieval)迄今为止,我们主要关注的是布尔查询文档要么匹配要么不匹配对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择对应用开发来说也非常简单,很容易就可以返回1000多条结果然而对大多数用户来说不方便布尔搜索的不足: 结果过少或者过多布尔查询常常会倒是过少(=0)或者过多(1000)的结果查询 1 (布尔与操作): [standard user dlink 650]→ 200,000 个结果 – 太多查询2 (布尔与操作): [standard user dlink 650 no card found]→ 0 个结果 – 太少在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询排序式检索排序式检索可以避免产生过多或者过少的结果大

文档评论(0)

1亿VIP精品文档

相关文档