Solr4中整合mmseg4j[精选].docVIP

下载本文档

7
0
约6.81千字
约 9页
2017-01-18 发布于上海
举报
版权申诉

Solr4中整合mmseg4j[精选].doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Solr4中整合mmseg4j[精选]

Solr4.7.0中整合中文分词mmseg4j-1.9.1 时间2014-04-20 02:02:36 ITeye-博客原文 /blog/2050054 刚接触Lucene2.x和Solr2.x的时候，谈到中文分词，会让我立即想到用庖丁中文分词，庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库，而且是纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本而出名。几年过去了，Lucene和Solr都发展到了4.7.x版本，重拾中文分词，发现庖丁中文分词不再是首选，mmseg4j是更佳的选择。 mmseg4j支持最多分词，是一款很优秀的中文分词器，是用Chih-Hao Tsai 的 MMSeg 算法( /mmseg/ )实现的中文分词器，并实现 lucene 的analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。要想在Solr中整合mmseg4j其实很容易，只需要如下几个步骤 1、下载（ /p/mmseg4j/downloads/list ）并解压mmseg4j-1.9.1.zip，把dist下面的所有jar文件拷贝到你应用服务器下的 solr /WEB-INF/lib中。（如果你的应用服务器下面没有 solr ，请参考《Tomcat中安装Solr》）。有3个jar文件：mmseg4j-analysis-1.9.1.jar， mmseg4j-core-1.9.1.jar，mmseg4j-solr-1.9.1.jar。顺便提下，如果是在mmseg4j-1.9.0前，则需要copy data目录到solr_home/solr中（与core平级），并改名为dic。进入到你想使用mmseg4j分词器的core中（此处以solr自带的collection1为例），用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码： !-- mmseg4j分词器 -- fieldType name=text_mmseg4j class=solr.TextField analyzer type=index tokenizer class=com.chenlb.mmseg4j.solr.MMSegTokenizerFactory mode=complex dicPath=../dic /!--此处为分词器词典所处位置-- /analyzer analyzer type=query tokenizer class=com.chenlb.mmseg4j.solr.MMSegTokenizerFactory mode=complex dicPath=../dic /!--此处为分词器词典所处位置-- /analyzer /fieldType 2、在mmseg4j-1.9.0后，如本例的mmseg4j-1.9.1中，就可以不用 dicPath 参数，可以使用 mmseg4j-core-1.9.0.jar 里的 words.dic ，在Schema.xml中加入如下配置 !-- mmseg4j-- fieldType name=text_mmseg4j_complex class=solr.TextField positionIncrementGap=100 analyzer tokenizer class=com.chenlb.mmseg4j.solr.MMSegTokenizerFactory mode=complex dicPath=dic/ /analyzer /fieldType fieldType name=text_mmseg4j_maxword class=solr.TextField positionIncrementGap=100 analyzer tokenizer class=com.chenlb.mmseg4j.solr.MMSegTokenizerFactory mode=max-word dicPath=dic/ /analyzer /fieldType fieldType name=text_mmseg4j_simple class=solr.TextField positionIncrementGap=100 analyzer !-- tokenizer class=com.chenlb.mmseg