lucene_standard.docx

lucene_standard精要

day01 Lucene入门 Lucene第一天的课程内容: 任务:掌握原理、熟悉Lucene的API 搜索引擎的发展史 Lucene入门 Lucene的API详解 索引调优 Lucene搜索结果排名规则 搜索引擎的发展史 搜索引擎的发展史 萌芽:Archie、Gopher 起步:Robot(网络机器人)和spider(网络爬虫) Robot:网络机器人,自动在网络中运行,完成特定任务的程序,如刷票器、抢票软件等。 spider:网络爬虫,是一中特殊的机器人,抓取(下载)并分析网络资源,包括网页里面的超链接、图片、数据库、音频、视频等资源信息。 发展:excite、galaxy、yahoo 繁荣:infoseek、altavista、Google、百度 搜索引擎的原理 信息检索过程 构建文本库 建立索引 进行搜索 对结果进行排序 原理 搜索引擎的工作原理,通过用户输入的信息,通过网络爬虫即搜索服务器,将各与之相关的网站信息抓取并存放到自己的数据服务器中,在存入数据服务器的过???中将这些数据信息需要创建索引库,用户查询的结果信息都是来源与索引库信息,如果点击该结果超链接则访问的是该网站信息,如果选择“快照”则访问的是缓存信息。 那为什么要建立索引库呢?建立索引库的过程就是将该结果建立索引,通俗一点的理解就是建立目录的过程。 搜索引擎的使用场景 使用场景 电商网站的搜索,如京东、天猫

文档评论(0)

1亿VIP精品文档

相关文档