lucene3课堂笔记(第一天).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lucene3课堂笔记(第一天).doc

lucene3课堂笔记(第一天) lucene 课程学习2天 第一天 : lucene 全文检索技术是什么? 能用来做什么? 环境搭建? 快速入门 第二天 : 检索、高亮显示 、分词器 , 贴吧的综合练习 一、搜索引擎的历史 萌芽:Archie、Gopher Archie :搜索FTP服务器上文件 Gopher : 索引网页 起步:Robot(网络机器人)的出现与spider(网络爬虫) Robot: 基于网络执行特定任务的程序 spider : 爬取互联网上信息(文件、网络) ----- 网络自动下载程序 发展:excite、galaxy、yahoo 繁荣:infoseek,altaVista,Google和baidu 二、 搜索技术能用来做什么 ? 案例: 使用word中Ctrl+F 进行检索 : 从文档内部自上而下搜索 从windows的资源管理器中看搜索 :搜索每个文件夹,检索需要文件 myeclipse中help contents : 软件内部的搜索 BBS和BLOG 提供文章搜索功能 : 站内搜索 、 垂直领域搜索 (818工作网 ) Baidu和Google提供互联网中各种资源的搜索 : 专业搜索网站 今天学习lucene 应用 1、 软件内部搜索 2、 站内搜索 3、 垂直领域搜索 4、 互联网搜索引擎 三、 信息检索的过程 构建文本库 建立索引 进行搜索 对结果进行排序 四、 倒排索引 传统线性查找一个10MB的word文件,查找关键字如果在文档最后,大约3秒钟 倒排搜索区别于传统查找,传统菜肴线性查找,按照信息从前到后,依次查找(效率低), 倒排搜索,记录关键信息出现位置,通过索引内容快速找到关键 需要 信息内容 ,类似书籍的目标 (效率高 ) ============================================================================================================== 五、 lucene 快速入门 1、 什么是lucene 全文检索框架,apache提供 学习lucene : 对数据建立全文索引 , 根据全文索引搜索信息 免费开源 全文检索: 对需要查找数据 的每一个单词建立索引 官网:/ * 下载 lucene3.6.2 课程学习版本 * solr 是高性能搜索服务器, 基于 lucene (课程不涉及) **** lucene和搜索引擎关系 lucene 是搜索引擎开发技术 ,lucene并不是一个现成的产品 2、 使用lucene 开发5个步骤 * 下载lucene的开发包 lucene-3.6.2.zip * 导入jar包到工程 lucene-core-3.6.2.jar * 将数据转换为文档对象Document * 建立索引Index * 查询索引获取数据 lucene-core-3.6.2.jar 是lucene开发核心jar包 contrib 目录存放 扩展jar包 建立索引 需要先将数据转换 Document对象, 每个数据信息转换 Field(String name, String value, Field.Store store, Field.Index index) 指定索引库位置 Directory directory = FSDirectory.open(new File(index)); 分词器 Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_36); 写入索引 IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_36, analyzer); IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig); // 将document数据写入索引库 indexWriter.addDocument(document); indexWriter.close(); ** 通过 luke 工具查看索引库中内容 下载网址 : /p/luke/ 索引库中 包括 overview (索引内容)、 documents (文档对象内容) 查询索引库 建立Query QueryParser(Version matchVersion, String f, Analyzer a)

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档