基于Lucene自定义中文分词器设计和实现.docVIP

  • 14
  • 0
  • 约4.34千字
  • 约 8页
  • 2017-11-14 发布于福建
  • 举报

基于Lucene自定义中文分词器设计和实现.doc

基于Lucene自定义中文分词器设计和实现

基于Lucene自定义中文分词器设计和实现   摘要:该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。 关键词:中文分词;复杂最大匹配;Lucene;分词器 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)02-0430-04 虽然Lucene功能强大,配置灵活且应用广泛,然而其自带分词器的中文分词效果却不是太好。中文分词是自然语言处理领域中的一项重要的基础性工作,其结果将直接影响到检索系统的查准率和查全率。因此,研究一种能与Lucene相结合的高效的中文分词器,一直以来都是一个重要的课题[1]。将中文的汉字序列切分成一系列有意义的词,就是中文分词技术所要探讨内容,中文分词的准确与否,对搜索引擎检索结果的相关性和准确性有着很大的影响[2]。综合考虑上述要求,该文决定采用基于字符串匹配的分词算法来设计分词器,因为它原理简单且易于实现,简洁而高效,完全可以满足一般情况下开发设计自己个性化搜索引擎的需要。

文档评论(0)

1亿VIP精品文档

相关文档