- 4
- 0
- 约 8页
- 2016-08-17 发布于重庆
- 举报
lucene学习总结
Lucene学习总结
Lucene简单介绍(该部分摘自网络)
Lucene是一个高效的,基于Java的全文检索库。
所以在了解Lucene之前要费一番工夫了解一下全文检索。
那么什么叫做全文检索呢?这要从我们生活中的数据说起。
我们生活中的数据总体分为两种:结构化数据和非结构化数据。
结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。
非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。
当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。
非结构化数据又一种叫法叫全文数据。
按照数据的分类,搜索也分为两种:
对结构化数据的搜索:如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。
对非结构化数据的搜索:如利用windows的搜索也可以搜索文件内容,Linux下的grep命令,再如用Google和百度可以搜索大量内容数据。
对非结构化数据也即对全文数据的搜索主要有两种方法:
一种是顺序扫描法(Serial Scanning):所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的
您可能关注的文档
最近下载
- 2025年年技师图书仓储试题及答案.docx VIP
- 2026年湖南中考试题及答案.docx VIP
- (九科全套)武汉市武昌区2026届高三年级五月调研考试九科试卷合集(含答案).pdf
- 2025年新高考I卷数学高考试卷(原卷+答案).pdf VIP
- 高速公路电动汽车清障救援作业规范DB32T 5314-2025.docx VIP
- 2024年新高考全国Ⅰ卷数学试卷试题真题答案详解(精校打印)_可搜索.pdf VIP
- 《2026 CSCO肿瘤治疗所致血小板减少症诊疗指南》解读.docx
- 河北省承德市隆化县2025届重点中学小升初数学入学考试卷含解析.doc VIP
- 博朗9系列中文说明书.doc VIP
- 驾驶员考核标准细则.doc VIP
原创力文档

文档评论(0)