- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lucene3课堂笔记(第一天).doc
lucene3课堂笔记(第一天)
lucene 课程学习2天
第一天 : lucene 全文检索技术是什么? 能用来做什么? 环境搭建? 快速入门
第二天 : 检索、高亮显示 、分词器 , 贴吧的综合练习
一、搜索引擎的历史
萌芽:Archie、Gopher
Archie :搜索FTP服务器上文件
Gopher : 索引网页
起步:Robot(网络机器人)的出现与spider(网络爬虫)
Robot: 基于网络执行特定任务的程序
spider : 爬取互联网上信息(文件、网络) ----- 网络自动下载程序
发展:excite、galaxy、yahoo
繁荣:infoseek,altaVista,Google和baidu
二、 搜索技术能用来做什么 ?
案例:
使用word中Ctrl+F 进行检索 : 从文档内部自上而下搜索
从windows的资源管理器中看搜索 :搜索每个文件夹,检索需要文件
myeclipse中help contents : 软件内部的搜索
BBS和BLOG 提供文章搜索功能 : 站内搜索 、 垂直领域搜索 (818工作网 )
Baidu和Google提供互联网中各种资源的搜索 : 专业搜索网站
今天学习lucene 应用
1、 软件内部搜索
2、 站内搜索
3、 垂直领域搜索
4、 互联网搜索引擎
三、 信息检索的过程
构建文本库
建立索引
进行搜索
对结果进行排序
四、 倒排索引
传统线性查找一个10MB的word文件,查找关键字如果在文档最后,大约3秒钟
倒排搜索区别于传统查找,传统菜肴线性查找,按照信息从前到后,依次查找(效率低), 倒排搜索,记录关键信息出现位置,通过索引内容快速找到关键 需要 信息内容 ,类似书籍的目标 (效率高 )
==============================================================================================================
五、 lucene 快速入门
1、 什么是lucene
全文检索框架,apache提供
学习lucene : 对数据建立全文索引 , 根据全文索引搜索信息
免费开源
全文检索: 对需要查找数据 的每一个单词建立索引
官网:/
* 下载 lucene3.6.2 课程学习版本
* solr 是高性能搜索服务器, 基于 lucene (课程不涉及)
**** lucene和搜索引擎关系
lucene 是搜索引擎开发技术 ,lucene并不是一个现成的产品
2、 使用lucene 开发5个步骤
* 下载lucene的开发包 lucene-3.6.2.zip
* 导入jar包到工程 lucene-core-3.6.2.jar
* 将数据转换为文档对象Document
* 建立索引Index
* 查询索引获取数据
lucene-core-3.6.2.jar 是lucene开发核心jar包
contrib 目录存放 扩展jar包
建立索引
需要先将数据转换 Document对象, 每个数据信息转换 Field(String name, String value, Field.Store store, Field.Index index)
指定索引库位置 Directory directory = FSDirectory.open(new File(index));
分词器 Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);
写入索引
IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_36, analyzer);
IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);
// 将document数据写入索引库
indexWriter.addDocument(document);
indexWriter.close();
** 通过 luke 工具查看索引库中内容
下载网址 : /p/luke/
索引库中 包括 overview (索引内容)、 documents (文档对象内容)
查询索引库
建立Query
QueryParser(Version matchVersion, String f, Analyzer a)
您可能关注的文档
- EDA实训函数信号发生器.doc
- email或者短信沟通时必懂的英文缩写.doc
- EMClient_zh.doc
- epidemiology of sepsis in intensive care unit.doc
- etabs-pushover分析.doc
- ETS的角度看GRE阅读.doc
- eve-online_NPC军团势力_中英翻译对照表.doc
- EWAN_Final_Exam全.doc
- EWRphase4一种新型的电磁波电阻率随钻测井仪.doc
- Example--SQL Server 2005综合查询.doc
- 服务外包行业2025年区域布局分析:未来十年发展策略研究报告.docx
- 2025年秋新人教版英语8年级上册整册课件.pptx
- 虚拟电厂在新能源消纳中的技术创新与经济效益评估报告.docx
- 共享健身仓用户体验改进案例研究.docx
- 2025-2026学年小学美术一年级上册(2024)苏少版(2024)教学设计合集.docx
- 跨境电商品牌2025年海外市场拓展与本土化运营策略分析.docx
- 元宇宙时代2025年旅游景区虚拟游览技术应用与发展趋势分析.docx
- 共享健身仓用户健身成果2025年实证研究.docx
- 2025-2026学年初中生物学八年级上册(2024)北师大版(2024)教学设计合集.docx
- 2025年绿色金融产品创新在太阳能热利用行业的应用研究.docx
文档评论(0)