全文搜索引擎基础.pptxVIP

  • 2
  • 0
  • 约小于1千字
  • 约 29页
  • 2018-03-09 发布于湖北
  • 举报
全文搜索引擎基础

全文检索;全文检索的分类;非结构化检索两种方法;顺序扫描法(Serial Scanning);结构化索引定位法( index location );一般的搜索引擎的两个重要的过程;一般的搜索引擎的两个重要的过程;三个重要问题;索引里面究竟存些什么-原因;索引里面究竟存些什么-方法;索引里面究竟存些什么-分解1;索引里面究竟存些什么-分解2;索引里面究竟存些什么-分解3;创建索引-搞些文档;创建索引-将原文档传给分次组件(Tokenizer);创建索引-将得到的词元(Token)传给语言处理组件(Linguistic Processor);创建索引- Stemming 和 lemmatization的异同;创建索引-语言处理组件(linguistic processor)的结果称为词(Term);创建索引-将得到的词(Term)传给索引组件(Indexer);创建索引-将得到的词(Term)传给索引组件(Indexer);创建索引-合并相同的词(Term)成为文档倒排(Posting List)链表。;可以使用算法索引-二分法;如何对索引进行搜索;如何对索引进行搜索;对索引进行搜索-次数权重;对索引进行搜索-次数权重;对索引进行搜索-使用权重;流程图;搜索过程总结

文档评论(0)

1亿VIP精品文档

相关文档