- 14
- 0
- 约4.34千字
- 约 8页
- 2017-11-14 发布于福建
- 举报
基于Lucene自定义中文分词器设计和实现
基于Lucene自定义中文分词器设计和实现
摘要:该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。
关键词:中文分词;复杂最大匹配;Lucene;分词器
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)02-0430-04
虽然Lucene功能强大,配置灵活且应用广泛,然而其自带分词器的中文分词效果却不是太好。中文分词是自然语言处理领域中的一项重要的基础性工作,其结果将直接影响到检索系统的查准率和查全率。因此,研究一种能与Lucene相结合的高效的中文分词器,一直以来都是一个重要的课题[1]。将中文的汉字序列切分成一系列有意义的词,就是中文分词技术所要探讨内容,中文分词的准确与否,对搜索引擎检索结果的相关性和准确性有着很大的影响[2]。综合考虑上述要求,该文决定采用基于字符串匹配的分词算法来设计分词器,因为它原理简单且易于实现,简洁而高效,完全可以满足一般情况下开发设计自己个性化搜索引擎的需要。
您可能关注的文档
- 城市游憩商业区景观设计原则.doc
- 城市污水处理面临问题和解决对策.doc
- 城市深基坑施工降排水对周边建(构)筑物影响与控制措施.doc
- 城市消防远程监控系统现状和实践.doc
- 城市污水处理现状和其改善措施.doc
- 城市湿地公园保护和利用探索.doc
- 城市湖泊生态系统健康综合指标体系.doc
- 城市湿地保护和可持续利用.doc
- 城市滨水区工业遗址调查和再利用.doc
- 城市测绘过程中信息化测绘体系设计和建设.doc
- 【人民日报】十五五规划必刷100题及答案.docx
- 国家电网有限公司高校毕业生招聘考试公共与行业知识题库及答案(2026版).docx
- 高中入团积极分子考试题库及答案.docx
- 北京工业大学耿丹学院《社会福利思想》2025-2026学年期末试卷.doc
- 北京工业大学耿丹学院《新中国史》2025-2026学年期末试卷.doc
- 北京工业大学耿丹学院《文献信息检索与利用》2025-2026学年期末试卷.doc
- 活动策划丨长城炮越野皮卡上市发布方案 .pdf
- 【中考动员】主题班会《100天做自己的六边形战士+》.pptx
- 中考英语高频词汇第二部分 阅读技能·提升练(学用).pdf
- 商业综合体安全生产管理制度.docx
最近下载
- 《GAT 2073-2023法庭科学 血液中碳氧血红蛋白检验 分光光度法》专题研究报告.pptx VIP
- 巨量初级创意营销师真题模拟测试.docx VIP
- 重庆邮电大学2023-2024学年《细胞生物学》期末试卷(B卷)及参考答案.docx
- PSM-I-Professional-Scrum-Master-I认证真题题库E版(附答案).pdf VIP
- 北京林业大学2024-2025学年第2学期《线性代数》期末试卷(A卷)及参考答案.docx
- 基础加固竣工验收资料.pdf VIP
- 2025年绵阳市绵中实验中学初升高自主招生考试英语试题目及答案(推荐).docx VIP
- QB_T 2602-2013影剧院公共座椅.pdf
- 2025赤峰山金银铅有限公司校园招聘笔试备考试题及答案解析.docx VIP
- 关于2024年度组织生活会查摆问题整改落实情况的通报.docx VIP
原创力文档

文档评论(0)