- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件工程基于opencms的中文搜索研究
论文题目: 基于opencms的中文搜索研究
学 院: 计算机与信息学院
专业年级: 软件工程
学 号:
姓 名:
指导教师、职称:
2012 年 5 月
Research Simplified Chinese
Search Module Base On OpenCms
College: Computer and Information Science
Specialty and Grade: SoftWare Engineering , 2008
Number:
Name: Wang Feifei
Advisor: Professor Chen Changjiang
Submitted Time: May, 2012
目 录
中文摘要 I
Abstract II
1 引言 1
2 论文背景 2
3 实际分析 3
3.1 OpenCms中搜索的现状 3
3.1.1、OpenCms现状 3
3.1.2、OpenCms隐患 3
3.2 目前可用开源搜索引擎的分析和筛选 4
3.3 优化成中文搜索引擎的步骤 4
3.3.1、中文搜索引擎 4
3.3.2、中文搜索难点 5
3.4 中文分词算法的分类的筛选 5
3.4.1、字符串匹配分词 5
3.4.2、理解分词方法 6
3.4.3、统计分词方法 6
3.5 中文分词中的难题 7
3.5.1、歧义识别 7
3.5.2、新词识别 8
3.5.3、应用现状 8
3.6 可以嵌入OpenCms项目中的中文搜索工具的筛选 8
3.6.1、StopAnalyzer 9
3.6.2、StandardAnalyzer 9
3.6.3、SimpleAnalyzer 9
3.6.4、WhitespaceAnalyzer 9
3.6.5、KeywordAnalyzer 9
3.6.6、CJKAnalyzer 9
3.6.7、ChineseAnalyzer 9
3.6.8、PerFieldAnalyzerWrapper 10
3.6.9、IKAnalyzer 10
3.6.10、JE-Analysis 10
3.6.11、ICTCLAS4J 10
3.6.12、Imdict-Chinese-Analyzer 10
3.6.13、Paoding Analysis 10
3.6.14、MMSeg4J 10
3.6.15、IKAnalyzer 11
3.6.16、Paoding(庖丁解牛分词) 11
3.6.17、MMSEG4J 11
3.6.18、盘古分词 12
3.7 嵌入OpenCms项目的中文搜索引擎的注意事项 14
4 解决方案 20
4.1 分析OpenCms代码构架 20
4.2 分析OpenCms代码中搜索实现部分 22
4.3 添加IKAnalysis中文支持包进入OpenCms的项目 23
4.4 添加配置切换文件中对IKAnalysis的支持 23
5 探索研究 25
6 结束语 26
7 参考文献 27
致谢 28
中文摘要
本论文描述了OpenCms这一个开源的项目在中国的实施情况并且在落地本土化的前景和之中会遇到的问题。通过其中内嵌的Lucene搜索引擎未能很好的支持中文搜索而进行了一个分析,并指出了中文搜索在OpenCms本土化中的重要作用,且在本论文中对于中文搜索的现有前景和如何在OpenCms这一框架中嵌入中文分词搜索器进行了一个分析和模型的搭建,并且通过嵌入一个中文分词搜索器对Lucene的搜索原理有所了解,并且对于Lucene搜索中的中文分词的分词过滤,语法表达式等等有了深入的了解,也对于以后在算法的搜索方面有所了解。
关键词:OpenCms;本土化;Lucene;中文分词;分词器
Abstract
This paper describes the OpenCms, an open source project implemented in China, landing the localization of the prospect
您可能关注的文档
- 课程设计-基于system_view的4DPSK调制与解调的仿真.doc
- 课程设计-基于STM32的简易照相机设计.doc
- 课程设计-基于Ucos的多通道数据采集系统.doc
- 课程设计-基于VHDL数字时钟的设计与实现.doc
- 课程设计-基于verilog的数字时钟设计.doc
- 课程设计-基于UDP客户端通讯.doc
- 课程设计-基于VHDL的多功能调制解调器的设计.doc
- 课程设计-基于VHDL的时分复接器设计.doc
- 课程设计-基于VHDL的语言数字钟的设计.doc
- 课程设计-基于WEB的小区物业管理系统设计与实现.doc
- 服装购买合同8篇.docx
- 赤壁赋正式市公开课一等奖省赛课微课金奖PPT课件.pptx
- 近似数和有效数字市公开课一等奖省赛课微课金奖PPT课件.pptx
- 湖南省永州市镇中学高二英语知识点试题含解析.docx
- 远离危险主题班会省公开课一等奖全国示范课微课金奖PPT课件.pptx
- 选修6unit4languagepoints市公开课一等奖省赛课微课金奖PPT课件.pptx
- 教师工作计划3篇.docx
- 邹忌讽齐王纳谏中考复习市公开课一等奖省赛课微课金奖PPT课件.pptx
- 通用高考语文复习11语言表达简明连贯得体准确鲜明生动市赛课公开课一等奖省名师优质课获奖PPT课件.pptx
- 小班元旦亲子活动方案.docx
文档评论(0)