lucene_standard.docxVIP

下载本文档

1
0
约6.21千字
约 25页
2017-01-08 发布于重庆
举报
版权申诉

lucene_standard.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

lucene_standard

day01 Lucene入门Lucene第一天的课程内容：任务：掌握原理、熟悉Lucene的API搜索引擎的发展史Lucene入门Lucene的API详解索引调优Lucene搜索结果排名规则搜索引擎的发展史搜索引擎的发展史萌芽：Archie、Gopher起步：Robot（网络机器人）和spider（网络爬虫）Robot：网络机器人，自动在网络中运行，完成特定任务的程序，如刷票器、抢票软件等。spider：网络爬虫，是一中特殊的机器人，抓取（下载）并分析网络资源，包括网页里面的超链接、图片、数据库、音频、视频等资源信息。发展：excite、galaxy、yahoo繁荣：infoseek、altavista、Google、百度搜索引擎的原理信息检索过程构建文本库建立索引进行搜索对结果进行排序原理搜索引擎的工作原理，通过用户输入的信息，通过网络爬虫即搜索服务器，将各与之相关的网站信息抓取并存放到自己的数据服务器中，在存入数据服务器的过程中将这些数据信息需要创建索引库，用户查询的结果信息都是来源与索引库信息，如果点击该结果超链接则访问的是该网站信息，如果选择“快照”则访问的是缓存信息。那为什么要建立索引库呢？建立索引库的过程就是将该结果建立索引，通俗一点的理解就是建立目录的过程。搜索引擎的使用场景使用场景电商网站的搜索，如京东、天猫等论坛、BBS等站内搜索垂直领域的搜索，垂直领域：即专门做一件事。如818工作网、拉勾网等都属于垂直领域。Windows的资源管理器中的搜索Word中的Ctrl+F、eclipse中的Ctrl+shift+T等单机软件的搜索这些都是属于信息检索的范围。倒排索引倒排索引，就是提取信息并建立索引（目录）的过程中，搜索时，根据关键字找到资源的具体位置。如：Lucene入门什么是Lucene概念Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能。Lucene与搜索引擎的区别全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文检索系统是一个可以运行的系统，包括建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。例如：百度搜索、eclipse帮助搜索、淘宝网商品搜索。搜索引擎是全文检索技术最主要的一个应用，例如百度。搜索引擎起源于传统的信息全文检索理论，即计算机程序通过扫描每一篇文章中的每一个词，建立以词为单位的倒排文件，检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率，对包含这些检索词的文章进行排序，最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。Lucene和搜索引擎不同，Lucene是一套用java或其它语言写的全文检索的工具包，为应用程序提供了很多个api接口去调用，可以简单理解为是一套实现全文检索的类库，搜索引擎是一个全文检索系统，它是一个单独运行的软件系统。Lucene开源免费，它既不是搜索引擎，也不是可直接运行的软件，它只是一套API，可以根据该API开发自己的搜索系统。掌握什么这里我们使用的是Lucene4.x版本，我们需要知道是如何创建索引的，并根据输入的信息将我们的结果查询出来这样的一套流程。企业中如何使用Lucene例如BBS贴吧的站内搜索，它是如何完成的呢？难道是查询数据库的信息并将结果返回的么？入门程序下载Lucene官网，/，我们通过官网下载我们需要的jar包。目前最新的版本5.3.1，那这里我们使用的是4.10.2这个版本。创建索引导入jar包解压我们的zip压缩文件，导入我们需要的jar包。这里我们需要分词器的包、Lucene的核心包、高亮显示的包和查询需要的包。创建索引在发帖并提交时，我们创建帖子的索引库。创建索引库的过程：将文本内容-转换成Document对象（该对象中有很多Field，可以把该Document对象当做是一个帖子），然后在通过IndexWriter创建我们的索引。代码代码里提到了分词器的概念，这个再将API的时候在细说。索引库查看索引库我们通过lukeall工具查看创建的索引库中的内容。我们通过java –jar xxx.jar的方式运行我们的lukeall工具，并通过该工具查看我们创建的索引库的内部结构。overview目录库，分词后的词条信息。document也就是内容库。存放数据的。基于索引搜索检索过程检索过程。代码Lucene API详解创建索引APIDirectoryDirectory，指的是文件磁盘的索引路径RAMDirectory，指的是内存中的索引路径Analyzer原理Analyzer是一个抽象类，在Lucene的lu