软件工程基于opencms的中文搜索研究.doc

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件工程基于opencms的中文搜索研究

论文题目: 基于opencms的中文搜索研究 学 院: 计算机与信息学院 专业年级: 软件工程 学 号: 姓 名: 指导教师、职称: 2012 年 5 月 Research Simplified Chinese Search Module Base On OpenCms College: Computer and Information Science Specialty and Grade: SoftWare Engineering , 2008 Number: Name: Wang Feifei Advisor: Professor Chen Changjiang Submitted Time:   May, 2012 目 录 中文摘要 I Abstract II 1 引言 1 2 论文背景 2 3 实际分析 3 3.1 OpenCms中搜索的现状 3 3.1.1、OpenCms现状 3 3.1.2、OpenCms隐患 3 3.2 目前可用开源搜索引擎的分析和筛选 4 3.3 优化成中文搜索引擎的步骤 4 3.3.1、中文搜索引擎 4 3.3.2、中文搜索难点 5 3.4 中文分词算法的分类的筛选 5 3.4.1、字符串匹配分词 5 3.4.2、理解分词方法 6 3.4.3、统计分词方法 6 3.5 中文分词中的难题 7 3.5.1、歧义识别 7 3.5.2、新词识别 8 3.5.3、应用现状 8 3.6 可以嵌入OpenCms项目中的中文搜索工具的筛选 8 3.6.1、StopAnalyzer 9 3.6.2、StandardAnalyzer 9 3.6.3、SimpleAnalyzer 9 3.6.4、WhitespaceAnalyzer 9 3.6.5、KeywordAnalyzer 9 3.6.6、CJKAnalyzer 9 3.6.7、ChineseAnalyzer 9 3.6.8、PerFieldAnalyzerWrapper 10 3.6.9、IKAnalyzer 10 3.6.10、JE-Analysis 10 3.6.11、ICTCLAS4J 10 3.6.12、Imdict-Chinese-Analyzer 10 3.6.13、Paoding Analysis 10 3.6.14、MMSeg4J 10 3.6.15、IKAnalyzer 11 3.6.16、Paoding(庖丁解牛分词) 11 3.6.17、MMSEG4J 11 3.6.18、盘古分词 12 3.7 嵌入OpenCms项目的中文搜索引擎的注意事项 14 4 解决方案 20 4.1 分析OpenCms代码构架 20 4.2 分析OpenCms代码中搜索实现部分 22 4.3 添加IKAnalysis中文支持包进入OpenCms的项目 23 4.4 添加配置切换文件中对IKAnalysis的支持 23 5 探索研究 25 6 结束语 26 7 参考文献 27 致谢 28 中文摘要 本论文描述了OpenCms这一个开源的项目在中国的实施情况并且在落地本土化的前景和之中会遇到的问题。通过其中内嵌的Lucene搜索引擎未能很好的支持中文搜索而进行了一个分析,并指出了中文搜索在OpenCms本土化中的重要作用,且在本论文中对于中文搜索的现有前景和如何在OpenCms这一框架中嵌入中文分词搜索器进行了一个分析和模型的搭建,并且通过嵌入一个中文分词搜索器对Lucene的搜索原理有所了解,并且对于Lucene搜索中的中文分词的分词过滤,语法表达式等等有了深入的了解,也对于以后在算法的搜索方面有所了解。 关键词:OpenCms;本土化;Lucene;中文分词;分词器 Abstract This paper describes the OpenCms, an open source project implemented in China, landing the localization of the prospect

文档评论(0)

feixiang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档