- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、Lucene的查询语法
Lucene所支持的查询语法可见 /java/3_0_1/queryparsersyntax.html
(1) 语法关键字
+ - || ! ( ) { } [ ] ^ ~ * ? : \
如果所要查询的查询词中本身包含关键字,则需要用\进行转义
(2) 查询词(Term)
Lucene支持两种查询词,一种是单一查询词,如hello,一种是词组(phrase),如hello world。
(3) 查询域(Field)
在查询语句中,可以指定从哪个域中寻找查询词,如果不指定,则从默认域中查找。
查询域和查询词之间用:分隔,如title:Do it right。
:仅对紧跟其后的查询词起作用,如果title:Do it right,则仅表示在title中查询Do,而it right要在默认域中查询。
(4) 通配符查询(Wildcard)
支持两种通配符:?表示一个字符,*表示多个字符。
通配符可以出现在查询词的中间或者末尾,如te?t,test*,te*t,但决不能出现在开始,如*test,?test。
(5) 模糊查询(Fuzzy)
模糊查询的算法是基于Levenshtein Distance,也即当两个词的差别小于某个比例的时候,就算匹配,如roam~0.8,即表示差别小于0.2,相似度大于0.8才算匹配。
(6) 临近查询(Proximity)
在词组后面跟随~10,表示词组中的多个词之间的距离之和不超过10,则满足查询。
所谓词之间的距离,即查询词组中词为满足和目标词组相同的最小移动次数。
如索引中有词组apple boy cat。
如果查询词为apple boy cat~0,则匹配。
如果查询词为boy apple cat~2,距离设为2方能匹配,设为1则不能匹配。
(0)
boy
apple
cat
(1)
boy
apple
cat
(2)
apple
boy
cat
如果查询词为cat boy apple~4,距离设为4方能匹配。
(0)
cat
boy
apple
(1)
cat
boy
apple
(2)
boy
cat
apple
(3)
boy
apple
cat
(4)
apple
boy
cat
?
(7) 区间查询(Range)
区间查询包含两种,一种是包含边界,用[A TO B]指定,一种是不包含边界,用{A TO B}指定。
如date:TO,当然区间查询不仅仅用于时间,如title:{Aida TO Carmen}
(8) 增加一个查询词的权重(Boost)
可以在查询词后面加^N来设定此查询词的权重,默认是1,如果N大于1,则说明此查询词更重要,如果N小于1,则说明此查询词更不重要。
如jakarta^4 apache,jakarta apache^4 Apache Lucene
(9) 布尔操作符
布尔操作符包括连接符,如AND,OR,和修饰符,如NOT,+,-。
默认状态下,空格被认为是OR的关系,QueryParser.setDefaultOperator(Operator.AND)设置为空格为AND。
+表示一个查询语句是必须满足的(required),NOT和-表示一个查询语句是不能满足的(prohibited)。
(10) 组合
可以用括号,将查询语句进行组合,从而设定优先级。
如(jakarta OR apache) AND website
?
Lucene的查询语法是由QueryParser来进行解析,从而生成查询对象的。
通过编译原理我们知道,解析一个语法表达式,需要经过词法分析和语法分析的过程,也即需要词法分析器和语法分析器。
QueryParser是通过JavaCC来生成词法分析器和语法分析器的。
?
二、JavaCC介绍
本节例子基本出于JavaCC tutorial的文章, http://www.engr.mun.ca/~theo/JavaCC-Tutorial/
JavaCC是一个词法分析器和语法分析器的生成器。
所谓词法分析器就是将一系列字符分成一个个的Token,并标记Token的分类。
例如,对于下面的C语言程序:
int main() {
??? return 0 ;
}
???
将被分成以下的Token:
“int”, “ ”, “main”, “(”, “)”,
“”,“{”, “\n”, “\t”, “return”
“”,“0”,“”,“;”,“\n”,
“}”, “\n”, “”
标记了Token的类型后如下:
KWINT, SPACE, ID, OPAR, CPAR,
SPACE, OBRACE, SPACE, SPACE, KWRETURN,
SPA
您可能关注的文档
- ISO14001全套资料--信息交流控制程序.doc
- ISO90012008版内审培训课程.ppt
- JCT640-1996顶进施工法用钢筋混凝土排水管.doc
- JM304B变速箱箱体钻孔组合机床总体设计及后主轴箱设计.doc
- JSP动态网页设计技术教程 第7章 Servlet技术.ppt
- Justep X3业务基础平台理论和体系介绍.ppt
- k2清水湾前期创作沟通提案.ppt
- Last Dream for an Old Oak Tree 100个儿童英语故事.doc
- Linux+C视频课程之编译预处理.ppt
- Linux+C视频课程之顺序程序设计.ppt
- Lucene学习总结之九:Lucene的查询对象.doc
- MapGIS k9提取图斑坐标串操作方法.doc
- Matlab绘图基础 应用数学╲t 概率与统计.ppt
- MBA必修课《创业管理学》第11章公司创业.ppt
- MBA英语指导:长难句结构分析经典100句.doc
- MCS-51单片机芯片的结构及原理.ppt
- MICROS3700 Operation manual餐饮系统说明书.doc
- MicrosoftProject2003项目管理与应用 第6章_项目的进度管理.ppt
- MicrosoftProject2003项目管理与应用 第10章_Microsoft Project Server.ppt
- MM-102 中国航油ERP用户手册-供应商主数据维护流程.doc
最近下载
- 电梯日常维护保养质量检查表.pdf VIP
- 自然语言处理全套教学课件.pptx VIP
- 2025年辽宁省档案职称考试(档案基础理论知识·初级)历年参考题库含答案详解(5套).docx VIP
- 浙江经贸职业技术学院辅导员考试试题(2023).docx VIP
- 体例格式6:工学一体化课程《windows服务器基础配置与局域网组建》任务1学习任务分析表.docx VIP
- 人教版《劳动教育》六上 劳动项目八《烹饪蛋炒饭》课件.pptx VIP
- 高等教育法规概论高校教师岗前培训.pdf VIP
- 卫生院各项规章制度汇编.docx VIP
- 专升本英语词汇3500词(必背).pdf VIP
- L13S2给水图集(附条文).pdf VIP
文档评论(0)