Lucenenote.docVIP

  • 1
  • 0
  • 约小于1千字
  • 约 7页
  • 2017-03-26 发布于江苏
  • 举报
分词器的介绍: 推荐使用的四大类分词器: SimpleAnalyzer StopAnalyzer WhiteSpaceAnalyzer StandardAnalyzer TokenStream: 通过 Tokenizer和TokenFilter 来生成最终的TokenStream Tokenizer: 用来分词的类,将一组数据划分为语汇单元 TokenFilter:用来过滤语汇单元的类 索引中大写字母被保存为小写的原因就是这里了 Lucene的分词: StopAnalyzer的默认停用词: 中文分词器: MMseg: MMSeg无参的构造函数: 会自动加载data里面的词库 不使用Maven的话要下载with-dic版本的jar包 自定义同义词分词器: 思路: 自定义Tokenizer和TokenTilter (使用MMSeg4j) 获取CharTermAttribute 获取PositionIncrementAttribute 获取相应的同义词列表 如果有同义词数据,在相同的位置添加同义词 Worknet的原理也是这样滴 思路2:

文档评论(0)

1亿VIP精品文档

相关文档