Lucene课堂笔记.docxVIP

  • 1
  • 0
  • 约6.51千字
  • 约 23页
  • 2016-12-19 发布于重庆
  • 举报
Lucene 入门课程计划:搜索引擎介绍Lucene介绍Lucene全文检索执行过程Lucene入门程序Lucene API详解Lucene对搜素结果排名搜索引擎介绍搜索引擎发展史萌芽:Archie、Gopher起步:Robot(网络机器人)的出现与spider(网络爬虫)发展:excite、galaxy、yahoo繁荣:infoseek,altaVista,Google和baidu搜索的常见应用场景应用场景 :1、 单机软件的搜索(word中的搜索)2、 站内搜索 (baidu贴吧、论坛、 京东、 taobao)3、 垂直领域的搜索 (docin豆丁、拉勾、100offer) 4、 专业搜索引擎公司 (google、baidu)搜索数据方式顺序扫描法所谓顺序扫描,例如要找内容包含一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。这种方法是顺序扫描方法,数据量大就搜索慢。倒排索引倒排索引(也称为倒排文件)是一种存储了来自文本中的映射的索引数据结构。比如单词或者数字,对应到它们在数据库、一个文件或者一组文件中的位置。它是在文档检索系统中使用的最流行的数据结构,在搜索引擎中有大规模使用案例例如我们使用新华字典查询汉字,新华字典有偏旁部首的目录(索引),我们查字首先查这个目录,

文档评论(0)

1亿VIP精品文档

相关文档