网络内容安全3.pptVIP

  • 7
  • 0
  • 约7.8千字
  • 约 43页
  • 2017-11-28 发布于湖北
  • 举报
网络内容安全3

倒排索引(续) 通常采用变长表方式 磁盘上,顺序存储方式比较好,便于快速读取 内存中,采用链表或者可变长数组方式 存储空间/易插入之间需要平衡 * Dictionary Postings 按docID排序 (原因后面再讲) Posting Brutus Calpurnia Caesar 1 2 4 5 6 16 57 132 1 2 4 11 31 45 173 2 31 174 54 101 词典 倒排(记录)表 倒排记录 Tokenizer 词条流 Friends Romans Countrymen 倒排索引构建 Linguistic modules 修改后的词条 friend roman countryman Indexer 倒排索引 friend roman countryman 2 4 2 13 16 1 待索引文档 Friends, Romans, countrymen. 词条化工具 语言分析工具 索引构建过程: 词条序列 词条,docID二元组 I did enact Julius Caesar I was killed i the Capitol; Brutus killed me. Doc 1 So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious Doc 2

文档评论(0)

1亿VIP精品文档

相关文档