企业网站信息检索系统的研究与实现.pptVIP

下载本文档

4
0
约2.41千字
约 19页
2018-06-16 发布于河南
举报
版权申诉

企业网站信息检索系统的研究与实现.ppt

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

企业网站信息检索系统的研究与实现

基于Lucene的企业网站信息检索系统的研究与实现报告人：陈兵指导老师：邰晓英目录研究背景与意义研究目标与任务研究方法和技术路线关键技术和难点进度安排一：研究的背景与意义搜索引擎技术的发展企业信息化的发展企业检索与Web搜索引擎不同（1）企业信息与Web网页不同（2）检索效率要求与Web检索不同（3）安全管理与Web检索不同（4）智能化和个性化与Web检索不同国内外研究现状（1）TREC2005提出将企业检索作为Web检索的继承课题，提出了两个典型的企业检索任务：专家检索和电子邮件检索。（2）现有企业信息检索工具 IBM OmniFind Yahoo！Edition Google Mini Search Appliance Fast Search Transfer Endeca 二：研究的目标与任务主要目标设计和实现一个企业网站的信息检索系统：（1）索引采用倒排文件结构，（2）分词系统采用自适应分词方法，（3）搜索结果排序算法采用基于经典的TF-IDF查询相关度算法并加入时间衰减度因子的自定义排序算法，使检索结果更适合企业应用。研究的主要任务 (1)基于Lucene的信息检索框架 (2)HTML、Word、Execl、PDF、XML等结构化或半结构化文档的文本提取 (3)基于Hibernate的数据库数据源的提取 (4)Lucene的索引建立及优化 (5)开发Lucene分析器接口的自适应的中文分词系统 (6)适合企业特性的搜索结果排序算法三：研究方法和技术路线企业网站检索系统调研用户检索需求考察企业网站信息检索框架的开发（1）文档解析，索引建立（2）Lucene的中文分词器（3）相关度排序算法（加入时间因子衰减度）解析文档并建立索引 Html文档解析：JTidy Word，Execl文档解析：POI PDF文档解析:PDXBox 数据库的数据提取：Hibernate 索引建立和优化（Lucene Index) 中文分词 Lucene ChineseAnalyzer实现的功能（1）支持中文数字匹配（2）支持数量词匹配（3）支持日期时间匹配（4）支持电子邮件匹配（5）支持英文、数字、中文混合分词课题采用的分词器增加的功能（1）支持分词粒度控制（2）支持中文词典动态维护（3）支持中英文噪声词过滤（4）支持人名匹配（5）支持地名匹配（6）支持商品编码匹配排序算法 Lucene默认的评分算法课题采用的排序算法在Lucene默认的评分算法上考虑时间因素，根据文档的日期信息设置不同的Boost 四：关键技术和难点索引数据库的数据并实时更新索引适合企业检索应用的中文分词系统索引数据库类型的数据源 Compass和Hibernate的整合 Compass：对象搜索映射（Object/Search Engine Mapping ） Hibernate：对象关系映射（Object /Relational Mapping ） Hibernate充当了中间桥梁，主要负责对象到数据库的映射。而Compass又可以充分利用已有的对象，间接地与数据库联系，来实现对数据库的搜索应用。中文分词系统基本分词方法（1）基于字典的分词方法（2）基于统计的分词方法（3）基于理解的分词方法课题采用的分词方法基于字典的分词方法分词策略（1）MM（2）RMM（3）全切分等字典组织（1）整词二分（2）TRIE索引树（3）逐字二分（4）双字哈希等基于统计的分词方法基于统计模型计算概率课题采用的中文分词分词策略首先用候选词典采用正向最大匹配(MM)分词,切分出部分结果,剩余没有切分交给正式词典,同样采取正向最大匹配(MM)分词,最后输出结果字典结构字典结构有三部分组成：首字Hash索引、次字Hash索引和剩余字串组课题采用的中文分词未登录词处理（1）对提交给企业网站检索系统