第五章 Lucene5.4搜索入门.docxVIP

下载本文档

7
0
约6.51千字
约 13页
2017-07-05 发布于福建
举报
版权申诉

第五章 Lucene5.4搜索入门.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Lucene搜索入门前言搜索即用给定的关键字（key）去内容库（contents）里找到key。Lucene的搜索大概原理是从contents里提取预定的关键字（preKey）做成一个索引库（indexTable）。例：内容库（contents）数据库表productIdNameTitleprice1草鱼广西来宾清水草鱼122大米广西来宾小平阳东南小油粘米33苹果陕西凤阳小妈咪苹果94花生广西南宁十万大山野花生99索引库（IndexTable）[多对多规则，此表只是举例，真实生成规则复杂，也不是一张表]PreKeyids鱼，广西，来宾，清水，草鱼1,2,4米，大米，小平阳，东南，油粘米2果，苹果，陕西，凤阳，妈咪3花生，十万大山，野花生4给定key=“广西”，则搜索出id为1,2,4的记录。下面具体讲Lucen的操作。内容步骤：在eclipse中创建一个Maven工程点击“finish”，工程创建完成如下：打开配置文件 pom.xml编辑里面的内容如下：说明：增加了dependencies标签及其内部内容。每个dependency内容寻找方法,以第一个dependency内容为例，如下：打开在头条搜索框输入lucene搜索搜索结果如下，选择含有lucene-core的第一个结果点击进入点击版本号进入：其它几个dependency的内容一样的寻找方法。注意版本（当前我用lucene 5.4.1）修改工程默认的JDK版本，默认的是JDK1.5，修改成JDK1.7以上，我电脑安装JDK1.8所以修改成JDK1.8。（JDK1.8就是JDK8,同理JDK1.5是JDK5,叫法不同而已）操作：对工程名“Lucene”右键—Build Path—configure Build Path…准备数据（前言中的contents）在D盘下的LuceneData文件夹里准备了5个文件。写java代码生成索引表（前方中的indexTable）在工程的src/main文件夹下创建生成索引表的工具类实现CreateIndexTable.java类package com.zhc.lucene;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.nio.file.Paths;import .smart.SmartChineseAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.document.StringField;import org.apache.lucene.document.TextField;import org.apache.lucene.index.IndexWriter;import org.apache.lucene.index.IndexWriterConfig;import org.apache.lucene.store.FSDirectory;publicclass CreateIndexTable {private IndexWriter writer;//索引表生成对象，可以看成是一个有规则的输出流对象/** * 构造方法 * @param contentDir 等待创建索引的内容路径 * @param indexTableDir 索引表保存的路径 * @throws IOException */public CreateIndexTable(String contentDir,String indexTableDir) throws IOException{//读取内容FSDirectory dir = FSDirectory.open(Paths.get(indexTableDir));//创建一个标准分词器，所谓分词器，就是在全内容中选择出关键字（不适用于中文，所以我们选择建议一个中文的分词器）//StandardAnalyzer analyzer = new StandardAnalyzer();SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();//创建索引分析器配置实例IndexWriterConfig config = new IndexWriterConfig(analyzer);writer = new IndexWriter(dir,config);//读入等等创建索引的内容(因为是多个文件所以用listFiles,如果是只有一个文件也不会错)F