倒排检索构建.pptVIP

  • 6
  • 0
  • 约3.2千字
  • 约 25页
  • 2016-12-24 发布于天津
  • 举报
倒排检索构建 主讲人:陈文亮 苏州大学计算机学院 提纲 * 倒排索引 布尔查询的处理 一个简单的例子(金庸小说) 金庸的哪本小说包含郭靖和黄蓉但不包含洪七公? 布尔表达式为 郭靖 AND 黄蓉 AND NOT 洪七公 笨方法: 从头到尾扫描所有小说,对每本小说判断它是否包含郭靖和黄蓉但不包含洪七公 * 词项-文档(term-doc)的关联矩阵 若某小说包含某单词,则该位置上为1,否则为0 郭靖 AND 黄蓉 BUT NOT 洪七公 射雕英雄传 神雕侠侣 天龙八部 倚天屠龙记 鹿鼎记 郭靖 1 1 0 1 0 黄蓉 1 1 0 1 0 洪七公 1 1 0 0 0 张无忌 0 0 0 1 0 韦小宝 0 0 0 0 1 上述查询的结果文档 倚天屠龙记 * IR中的基本假设 文档集Collection: 由固定数目的文档组成 目标: 返回与用户需求相关的文档并辅助用户来完成某项任务 相关性Relevance * 大文档集 假定N = 1 百万篇文档(1M), 每篇有1000个词(1K) 假定每个词平均有6个字节(包括空格和标点符号) 那么所有文档将约占6GB 空间. 假定 词汇表的大小(即词项个数) |V| = 500K * 词项-文档矩阵将非常大 矩阵大小为 500K x 1M=500G 但是该矩阵中最多有10亿(1G)个1 词项-文档矩阵高度稀疏(s

文档评论(0)

1亿VIP精品文档

相关文档