Lucene学习总结之八:Lucene的查询语法,JavaCC及QueryParser.docVIP

Lucene学习总结之八:Lucene的查询语法,JavaCC及QueryParser.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、Lucene的查询语法 Lucene所支持的查询语法可见 /java/3_0_1/queryparsersyntax.html (1) 语法关键字 + - || ! ( ) { } [ ] ^ ~ * ? : \ 如果所要查询的查询词中本身包含关键字,则需要用\进行转义 (2) 查询词(Term) Lucene支持两种查询词,一种是单一查询词,如hello,一种是词组(phrase),如hello world。 (3) 查询域(Field) 在查询语句中,可以指定从哪个域中寻找查询词,如果不指定,则从默认域中查找。 查询域和查询词之间用:分隔,如title:Do it right。 :仅对紧跟其后的查询词起作用,如果title:Do it right,则仅表示在title中查询Do,而it right要在默认域中查询。 (4) 通配符查询(Wildcard) 支持两种通配符:?表示一个字符,*表示多个字符。 通配符可以出现在查询词的中间或者末尾,如te?t,test*,te*t,但决不能出现在开始,如*test,?test。 (5) 模糊查询(Fuzzy) 模糊查询的算法是基于Levenshtein Distance,也即当两个词的差别小于某个比例的时候,就算匹配,如roam~0.8,即表示差别小于0.2,相似度大于0.8才算匹配。 (6) 临近查询(Proximity) 在词组后面跟随~10,表示词组中的多个词之间的距离之和不超过10,则满足查询。 所谓词之间的距离,即查询词组中词为满足和目标词组相同的最小移动次数。 如索引中有词组apple boy cat。 如果查询词为apple boy cat~0,则匹配。 如果查询词为boy apple cat~2,距离设为2方能匹配,设为1则不能匹配。 (0) boy apple cat (1) boy apple cat (2) apple boy cat 如果查询词为cat boy apple~4,距离设为4方能匹配。 (0) cat boy apple (1) cat boy apple (2) boy cat apple (3) boy apple cat (4) apple boy cat ? (7) 区间查询(Range) 区间查询包含两种,一种是包含边界,用[A TO B]指定,一种是不包含边界,用{A TO B}指定。 如date:TO,当然区间查询不仅仅用于时间,如title:{Aida TO Carmen} (8) 增加一个查询词的权重(Boost) 可以在查询词后面加^N来设定此查询词的权重,默认是1,如果N大于1,则说明此查询词更重要,如果N小于1,则说明此查询词更不重要。 如jakarta^4 apache,jakarta apache^4 Apache Lucene (9) 布尔操作符 布尔操作符包括连接符,如AND,OR,和修饰符,如NOT,+,-。 默认状态下,空格被认为是OR的关系,QueryParser.setDefaultOperator(Operator.AND)设置为空格为AND。 +表示一个查询语句是必须满足的(required),NOT和-表示一个查询语句是不能满足的(prohibited)。 (10) 组合 可以用括号,将查询语句进行组合,从而设定优先级。 如(jakarta OR apache) AND website ? Lucene的查询语法是由QueryParser来进行解析,从而生成查询对象的。 通过编译原理我们知道,解析一个语法表达式,需要经过词法分析和语法分析的过程,也即需要词法分析器和语法分析器。 QueryParser是通过JavaCC来生成词法分析器和语法分析器的。 ? 二、JavaCC介绍 本节例子基本出于JavaCC tutorial的文章, http://www.engr.mun.ca/~theo/JavaCC-Tutorial/ JavaCC是一个词法分析器和语法分析器的生成器。 所谓词法分析器就是将一系列字符分成一个个的Token,并标记Token的分类。 例如,对于下面的C语言程序: int main() { ??? return 0 ; } ??? 将被分成以下的Token: “int”, “ ”, “main”, “(”, “)”, “”,“{”, “\n”, “\t”, “return” “”,“0”,“”,“;”,“\n”, “}”, “\n”, “” 标记了Token的类型后如下: KWINT, SPACE, ID, OPAR, CPAR, SPACE, OBRACE, SPACE, SPACE, KWRETURN, SPA

文档评论(0)

yurixiang1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档