- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
solr分词配置及其扩展词典配置
?
HYPERLINK /shihuacai/article/details/8494360 solr下配置IKAnalyzer分词器的扩展词典,停止词词典
1:将IKAnalyzer_home文件夹下的stopword.dic和IKAnalyzer.cfg.xml复制到tomcat_home/webapps/solr/WEB-INF/classes下,并修改IKAnalyzer.cfg.xml
?xml version=1.0 encoding=UTF-8?!DOCTYPE properties SYSTEM /dtd/properties.dtd ?properties ?? ? commentIK Analyzer 扩展配置/comment? ? !--用户可以在这里配置自己的扩展字典 --? ? entry key=ext_dictext.dic;/entry?? ? !--用户可以在这里配置自己的扩展停止词字典--? ? entry key=ext_stopwordsstopword.dic;/entry?/properties
2:修改stopword.dic,在最后加入如下三行
国中华中华人民
配置停用词词典后的运行结果对比如下:
3:在tomcat_home/webapps/solr/WEB-INF/classes下新建ext.dic文件,编辑如下
程隆
程隆腾达
HYPERLINK /longxia1987/article/details/8687809 solr 分词之 同义词(synonyms)
HYPERLINK /tag/solr \t _blank solr HYPERLINK /tag/synonyms \t _blank synonyms
我们常常在自定义一些搜索的时候,需要将某些特定的词搜索到其他商品;例如:
我搜索 “踩得” 我就要搜索到 “鞋类”
那么我们就需要配置solr的同义词:
同义词的配置是在 solr的 config文件夹下面:和 schema.xml一个目录下,有一个?synonyms.txt
重启solr。继续搜索:
这样搜索鞋类,就可以匹配到 ? 踩的
转载请标明出处:龙企阁/longxia1987
题外话:
如果有些 人 踩的 ?被分词成了 踩和的 两个词,那么就需要在solr的扩展词里面配置 强制分词,具体做法 参见我的另一篇博客:
=========================================------------------
solr-synonym功能(同义词) HYPERLINK /liwei_8/item/733295d27a13d21ad68ed04d /liwei_8/item/733295d27a13d21ad68ed04d
1) 配置
==========================schema.xml START=================================================fieldType name=textMaxWord class=solr.TextField ^M
lt;analyzer type=indexgt; lt;tokenizer class=com.chenlb.mmseg4j.solr.MMSegTokenizerFactory mode=max-word/gt;^M lt;filter class=solr.StopFilterFactory ignoreCase=false words=stopwords.txt/gt; lt;filter class=solr.StandardFilterFactory/gt; lt;filter class=solr.RemoveDuplicatesTokenFilterFactory/gt; lt;/analyzergt;
lt;analyzer type=querygt; lt;tokenizer class=com.chenlb.mmseg4j.solr.MMSegTokenizerFactory mode=max-word/gt;^M lt;filter class=solr.SynonymFilterFactory synonyms=synonyms.txt ignoreCase=true expand=true/gt; lt;filter class=solr.StopFilterFactory ignoreCase=false
文档评论(0)