- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
软件工程毕业设计论文-基于opencms的中文搜索研究
论文题目: 基于opencms的中文搜索研究
学 院: 计算机与信息学院
专业年级: 软件工程
学 号:
姓 名:
指导教师、职称:
2012 年 5 月
Research Simplified Chinese
Search Module Base On OpenCms
College: Computer and Information Science
Specialty and Grade: SoftWare Engineering , 2008
Number:
Name: Wang Feifei
Advisor: Professor Chen Changjiang
Submitted Time: May, 2012
目 录
中文摘要 I
Abstract II
1 引言 1
2 论文背景 2
3 实际分析 3
3.1 OpenCms中搜索的现状 3
3.1.1、OpenCms现状 3
3.1.2、OpenCms隐患 3
3.2 目前可用开源搜索引擎的分析和筛选 4
3.3 优化成中文搜索引擎的步骤 4
3.3.1、中文搜索引擎 4
3.3.2、中文搜索难点 5
3.4 中文分词算法的分类的筛选 5
3.4.1、字符串匹配分词 5
3.4.2、理解分词方法 6
3.4.3、统计分词方法 6
3.5 中文分词中的难题 7
3.5.1、歧义识别 7
3.5.2、新词识别 8
3.5.3、应用现状 8
3.6 可以嵌入OpenCms项目中的中文搜索工具的筛选 8
3.6.1、StopAnalyzer 9
3.6.2、StandardAnalyzer 9
3.6.3、SimpleAnalyzer 9
3.6.4、WhitespaceAnalyzer 9
3.6.5、KeywordAnalyzer 9
3.6.6、CJKAnalyzer 9
3.6.7、ChineseAnalyzer 9
3.6.8、PerFieldAnalyzerWrapper 10
3.6.9、IKAnalyzer 10
3.6.10、JE-Analysis 10
3.6.11、ICTCLAS4J 10
3.6.12、Imdict-Chinese-Analyzer 10
3.6.13、Paoding Analysis 10
3.6.14、MMSeg4J 10
3.6.15、IKAnalyzer 11
3.6.16、Paoding(庖丁解牛分词) 11
3.6.17、MMSEG4J 11
3.6.18、盘古分词 12
3.7 嵌入OpenCms项目的中文搜索引擎的注意事项 14
4 解决方案 20
4.1 分析OpenCms代码构架 20
4.2 分析OpenCms代码中搜索实现部分 22
4.3 添加IKAnalysis中文支持包进入OpenCms的项目 23
4.4 添加配置切换文件中对IKAnalysis的支持 23
5 探索研究 25
6 结束语 26
7 参考文献 27
致谢 28
中文摘要
本论文描述了OpenCms这一个开源的项目在中国的实施情况并且在落地本土化的前景和之中会遇到的问题。通过其中内嵌的Lucene搜索引擎未能很好的支持中文搜索而进行了一个分析,并指出了中文搜索在OpenCms本土化中的重要作用,且在本论文中对于中文搜索的现有前景和如何在OpenCms这一框架中嵌入中文分词搜索器进行了一个分析和模型的搭建,并且通过嵌入一个中文分词搜索器对Lucene的搜索原理有所了解,并且对于Lucene搜索中的中文分词的分词过滤,语法表达式等等有了深入的了解,也对于以后在算法的搜索方面有所了解。
关键词:OpenCms;本土化;Lucene;中文分词;分词器
Abstract
This paper describes the OpenCms, an open source project implemented in China, landing the localization of the prospect
您可能关注的文档
- 讲政治有信念专题培训讲座发言稿与2017人教版小学一年级语文下册教案全册精写配期末质量监测卷一套.doc
- 讲政治有信念做对党忠诚的党员心得体会与乡镇两学一做学习心得体会多篇.doc
- 讲政治有信念做对党忠诚的党员心得体会与乡镇两学一做学习心得体会镇党委副书记学习两学一做心得多篇.doc
- 讲看齐见行动专题务虚会发言材料与某支部两学一做学习教育工作总结多篇.doc
- 讲看齐见行动党课讲稿与学习沈因洛先进事迹心得体会.doc
- 讲规矩、有纪律学习情况总结与医疗质量安全管理年终总结.doc
- 讲规矩、有纪律学习研讨会发言稿与不忘初心,继续前进党课讲稿.doc
- 讲道德、有品行专题学习情况汇报与卫生行政执法工作自查报告.doc
- 讲道德有品行专题党课发言稿.doc
- 讲正气树新风个人自查报告与为民务实清廉活动自查报告.doc
- 2022-2023学年江苏省常州市溧阳市四年级下学期期中数学真题及答案.pdf
- 2022-2023学年江苏盐城建湖县五年级上册语文期末试卷及答案.pdf
- 2021-2022学年河南省卫辉市人教版三年级上册期末考试数学试卷及答案.pdf
- 2022-2023学年浙江杭州萧山区五年级下册语文期中试卷及答案.pdf
- 2022-2023学年江苏省淮安市二年级下学期数学月考试题及答案.pdf
- 2021年山西公务员申论考试真题及答案-乡镇.pdf
- 2021年普通话考试内容题库最新版.pdf
- 2021-2022年江苏苏州太仓市六年级上册期中语文试卷及答案(部编版).pdf
- 2022-2023学年山东省滨州市博兴县四年级下学期期末数学真题及答案.pdf
- 2021年四川内江小升初语文真题及答案.pdf
文档评论(0)