倒排索引设计公开课PPT.pptxVIP

  • 6
  • 0
  • 约3.37千字
  • 约 28页
  • 2016-11-21 发布于安徽
  • 举报
倒排索引设计公开课PPT.pptx

倒排索引设计 吴凯 2012年6月2日 信息源\网页集合 Query 检索 候选信息\ 页面 相关性排序 结果 关键词\Query 基本思路 关键字匹配 好文档至少要包含query中的所有词 分词 清华大学邮编 分词 清华大学 邮编 + 最初的思路 索引查询、归并 Term: 清华大学 倒排 索引 …… 索引归并 候选集 目标 生存 能够实现简单的倒排索引建立和检索 发展 针对高性能索引加载的设计 针对高性能索引归并的设计 针对索引压缩的设计 生存篇 第一步:建立词到文档位置的映射关系 … for (my $i = 0; $i $documentCount; ++$i) { my $document = ReadDocument($i); my $words = WordBreak($document); #分词 my $wordCount = $#$words + 1; for (my $j = 0; $j $wordCount; ++$j) { printf “%s\t%d\t%d\n”, $words-[$j], $i, $j; #建立映射 } } … 生存篇 第二步:按照词排序 LC_ALL=C sort -k1,1 -k2,2n -k3,3n 相同词的映射记录被调整到邻近行 相同词的记录,按照文档号从小到

文档评论(0)

1亿VIP精品文档

相关文档