solr分词配置及其扩展词典配置.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
solr分词配置及其扩展词典配置

?  HYPERLINK /shihuacai/article/details/8494360 solr下配置IKAnalyzer分词器的扩展词典,停止词词典 1:将IKAnalyzer_home文件夹下的stopword.dic和IKAnalyzer.cfg.xml复制到tomcat_home/webapps/solr/WEB-INF/classes下,并修改IKAnalyzer.cfg.xml ?xml version=1.0 encoding=UTF-8? !DOCTYPE properties SYSTEM /dtd/properties.dtd ? properties ? ? ? commentIK Analyzer 扩展配置/comment ? ? !--用户可以在这里配置自己的扩展字典 -- ? ? entry key=ext_dictext.dic;/entry? ? ? !--用户可以在这里配置自己的扩展停止词字典-- ? ? entry key=ext_stopwordsstopword.dic;/entry? /properties 2:修改stopword.dic,在最后加入如下三行 国 中华 中华人民 配置停用词词典后的运行结果对比如下: 3:在tomcat_home/webapps/solr/WEB-INF/classes下新建ext.dic文件,编辑如下 程隆 程隆腾达  HYPERLINK /longxia1987/article/details/8687809 solr 分词之 同义词(synonyms)   HYPERLINK /tag/solr \t _blank solr HYPERLINK /tag/synonyms \t _blank synonyms 我们常常在自定义一些搜索的时候,需要将某些特定的词搜索到其他商品;例如: 我搜索 “踩得” 我就要搜索到 “鞋类” 那么我们就需要配置solr的同义词: 同义词的配置是在 solr的 config文件夹下面:和 schema.xml一个目录下,有一个?synonyms.txt 重启solr。继续搜索: 这样搜索鞋类,就可以匹配到 ? 踩的 转载请标明出处:龙企阁/longxia1987 题外话: 如果有些 人 踩的 ?被分词成了 踩和的 两个词,那么就需要在solr的扩展词里面配置 强制分词,具体做法 参见我的另一篇博客: =========================================------------------ solr-synonym功能(同义词)  HYPERLINK /liwei_8/item/733295d27a13d21ad68ed04d /liwei_8/item/733295d27a13d21ad68ed04d 1) 配置 ==========================schema.xml START================================================= fieldType name=textMaxWord class=solr.TextField ^M lt;analyzer type=indexgt; lt;tokenizer class=com.chenlb.mmseg4j.solr.MMSegTokenizerFactory mode=max-word/gt;^M lt;filter class=solr.StopFilterFactory ignoreCase=false words=stopwords.txt/gt; lt;filter class=solr.StandardFilterFactory/gt; lt;filter class=solr.RemoveDuplicatesTokenFilterFactory/gt; lt;/analyzergt; lt;analyzer type=querygt; lt;tokenizer class=com.chenlb.mmseg4j.solr.MMSegTokenizerFactory mode=max-word/gt;^M lt;filter class=solr.SynonymFilterFactory synonyms=synonyms.txt ignoreCase=true expand=true/gt; lt;filter class=solr.StopFilterFactory ignoreCase=false

文档评论(0)

2017ll + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档