基于Lucene自定义中文分词器设计和实现.docVIP

下载本文档

14
0
约4.34千字
约 8页
2017-11-14 发布于福建
举报

基于Lucene自定义中文分词器设计和实现.doc

基于Lucene自定义中文分词器设计和实现

基于Lucene自定义中文分词器设计和实现　　摘要：该文设计了一个基于复杂形式最大匹配算法（MMSeg_Complex）的自定义中文分词器，该分词器采用四种歧义消除规则，并实现了用户自定义词库、自定义同义词和停用词的功能，可方便地集成到Lucene中，从而有效地提高了Lucene的中文处理能力。通过实验测试表明，该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高，并最终构建出了一个高效的中文全文检索系统。关键词：中文分词；复杂最大匹配；Lucene；分词器中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2014）02-0430-04 虽然Lucene功能强大，配置灵活且应用广泛，然而其自带分词器的中文分词效果却不是太好。中文分词是自然语言处理领域中的一项重要的基础性工作，其结果将直接影响到检索系统的查准率和查全率。因此，研究一种能与Lucene相结合的高效的中文分词器，一直以来都是一个重要的课题[1]。将中文的汉字序列切分成一系列有意义的词，就是中文分词技术所要探讨内容，中文分词的准确与否，对搜索引擎检索结果的相关性和准确性有着很大的影响[2]。综合考虑上述要求，该文决定采用基于字符串匹配的分词算法来设计分词器，因为它原理简单且易于实现，简洁而高效，完全可以满足一般情况下开发设计自己个性化搜索引擎的需要。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于Lucene自定义中文分词器设计和实现.docVIP