Lucene.net中文分词算法分析.pdfVIP

  • 23
  • 0
  • 约1.02万字
  • 约 5页
  • 2015-09-03 发布于湖北
  • 举报
Lucene.net中文分词算法分析.pdf

第43卷第3期 郑 州 大 学 学报(理 学 版) Vo1.43No.3 2011年 9月 J.ZhengzhouUniv.(Nat.Sci.Ed.) Sep.2011 Lucene.net中文分词算法分析 周拴龙 (郑州大学 信息管理系 河南 郑州450001) 摘要:Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其 内置的KeywordAnalyzer,Stand~dAnalyzer。Sto. pAnalyzer,SimpleAnalyzer,WhitespaceAnalyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处 理中文信息,必须引用外部独立开发的中文分词包.在对 ChineseAnalyzer,CJKAnalyzer和 IKAnalyzer这3种典型的 中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IKAnalyzer分词器的分词效果更胜一筹. 关键词 :L

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档