- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Lucene 入门
课程计划:
搜索引擎介绍
Lucene介绍
Lucene全文检索执行过程
Lucene入门程序
Lucene API详解
Lucene对搜素结果排名
搜索引擎介绍
搜索引擎发展史
萌芽:Archie、Gopher
起步:Robot(网络机器人)的出现与spider(网络爬虫)
发展:excite、galaxy、yahoo
繁荣:infoseek,altaVista,Google和baidu
搜索的常见应用场景
应用场景 :
1、 单机软件的搜索(word中的搜索)
2、 站内搜索 (baidu贴吧、论坛、 京东、 taobao)
3、 垂直领域的搜索 (docin豆丁、拉勾、100offer)
4、 专业搜索引擎公司 (google、baidu)
搜索数据方式
顺序扫描法
所谓顺序扫描,例如要找内容包含一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。这种方法是顺序扫描方法,数据量大就搜索慢。
倒排索引
倒排索引(也称为倒排文件)是一种存储了来自文本中的映射的索引数据结构。比如单词或者数字,对应到它们在数据库、一个文件或者一组文件中的位置。它是在文档检索系统中使用的最流行的数据结构,在搜索引擎中有大规模使用案例
例如我们使用新华字典查询汉字,新华字典有偏旁部首的目录(索引),我们查字首先查这个目录,找到这个目录中对应的偏旁部首,就可以通过这个目录中的偏旁部首找到这个字所在的位置(文档)。
倒排索引做两件事情:
提取资源中关键信息, 建立索引 (目录)
搜索时,根据关键字(目录),找到资源的位置
倒排索引
相关术语
文档(Document):一般搜索引擎处理的对象是互联网网页,对于搜索引擎来讲,Word、PDF、html、XML等不同格式的文件都可以称为文档,一般以文档来表示文本信息。
文档集合(Document Collection):由若干文档构成的集合成为文档集合。比如海量的互联网网页等。
文档编号(Document ID):在搜索引擎内部,会为文档集合每个文档赋予一个唯一的内部编号,以作为文档的唯一标识,以便于处理。
单词编号(Word ID):与文档编号类似,搜索引擎内部以唯一的编号来表示某个单词,以作为某个单词的唯一表示。
???排索引(Inverted Index):倒排索引是实现单词——文档矩阵的一种具体存储形式。通过倒排索引,可以根据单次快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:单词词典和倒排文件。
单词词典(Lexicon):搜索引擎通常的索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引记载单词本身的一些信息及指向倒排列表的指针。单词也就是我们在搜索时的一些关键字,也称为词条。
倒排列表(PostingList):倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文当中出现的位置信息,每条记录成为一个倒排向(Posting)。根据倒排列表,即可获知哪些文档包含某个单词。
倒排文件(Inverted File):所有单词的倒排列表往往顺序地存储在磁盘的某个文件里,这个文件即为倒排文件,倒排文件是存储倒排索引的物理文件。
单词-文档
单词-文档矩阵的基本模型:
该矩阵模型代表的含义:
词1在文档1、文档4中出现,文档1包含了词1和词4。
词2在文档2、文档5中出现,文档2包含词2。
创建倒排索引过程
倒排索引(文件)
基本倒排索引结构
第1列单词ID即为每个单词的编号。?第2列即为对应的单词。?第3列即为每个单词对应的倒排序表。(比如单词“拉斯”,单词编号为8,倒排序表为{3,5},说明文档集合中文档3和文档5包含这个单词。)
复杂倒排索引结构
就编号8—拉斯—{(3:1);(5,1)}来说,(3,1)表示“拉斯”在文档3中出现一次,(5,1)表示“拉斯”在文档5中出现1次。
完整倒排索引结构
就编号8—拉斯—2—{(3;1;4),(5;1;4)}来说,文档频率2表示在两个文档出现。“4”表示单词出现的位置是文档中的第4个单词。?这个倒排索引基本上是一个完备的索引系统了,实际搜索系统的索引结构基本如此。
Lucene介绍
概念
Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能。
Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支 持和提供
Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻, 在
您可能关注的文档
最近下载
- CJJ2-2008城市桥梁工程施工与质量验收规范.doc VIP
- GB∕T24067-2024温室气体产品碳足迹量化要求和指南.pptx.pdf
- 口服药物的吸收.ppt VIP
- 公司内帐管理系统Excel模板.xlsx VIP
- reading skill --Distinguishing Between Facts and Opinions.ppt
- 分式乘除法专项练习60题(有答案).doc VIP
- 《工业固体废物资源综合利用评价规范》(THNEE 009-2025).pdf VIP
- 正泰NA1-2000智能型万能断路器.pdf VIP
- 第3课 中古时期的西欧【课件】(共34张PPT)-中职高一年级下册学期高教版(2023)世界历史全一册(含音频+视频).pptx VIP
- 加拿大油砂沥青加工方案研究.doc VIP
文档评论(0)