基于Nutch框架下的中小型网络开源搜索引擎的研究与应用-计算机应用技术专业论文.docxVIP

  • 1
  • 0
  • 约5.29万字
  • 约 76页
  • 2019-02-15 发布于上海
  • 举报

基于Nutch框架下的中小型网络开源搜索引擎的研究与应用-计算机应用技术专业论文.docx

HYPERLINK \l _bookmark0 4.3.1 开发平台、语言及工具30 HYPERLINK \l _bookmark1 4.3.2 Nutch 插件开发机制 31 HYPERLINK \l _bookmark2 4.3.3 二次开发的 MVC 模型 32 HYPERLINK \l _bookmark2 4.4 小结 32 HYPERLINK \l _bookmark3 第 5 章 基于用户特征的搜索平台详细设计 33 HYPERLINK \l _bookmark3 5.1 爬虫策略设计 33 HYPERLINK \l _bookmark3 5.1.1 Nutch 爬虫算法设计 33 HYPERLINK \l _bookmark4 5.1.2 爬行策略的设计与实现34 HYPERLINK \l _bookmark5 5.2 用户信息模块设计 38 HYPERLINK \l _bookmark5 5.2.1 数据库设计38 HYPERLINK \l _bookmark6 5.2.2 用户访问日志模块设计39 HYPERLINK \l _bookmark7 5.3 搜索排序模块设计 41 HYPERLINK \l _bookmark7 5.3.1 搜索模块算法的设计41 HYPERLINK \l _bookmark8 5.3.2 使用 Plugin 进行中文分词和结果过滤 42 HYPERLINK \l _bookmark9 5.3.3 调用 NutchAPI 返回结果 45 HYPERLINK \l _bookmark10 5.4 搜索平台前台页面的设计 46 HYPERLINK \l _bookmark10 5.4.1 搜索平台页面设计46 HYPERLINK \l _bookmark11 5.4.2 关键词高亮显示的设计47 HYPERLINK \l _bookmark12 5.4.3 分页功能48 HYPERLINK \l _bookmark13 5.5 小结 50 HYPERLINK \l _bookmark14 第 6 章 系统应用及优化 51 HYPERLINK \l _bookmark14 6.1 系统演示及存在的问题 51 HYPERLINK \l _bookmark14 6.1.1 系统演示51 HYPERLINK \l _bookmark15 6.1.2 存在的问题分析53 HYPERLINK \l _bookmark16 6.2 索引的性能优化 54 HYPERLINK \l _bookmark17 6.3 缓存的应用 56 HYPERLINK \l _bookmark18 6.4 Web 服务器端的 Tomcat 集群 58 HYPERLINK \l _bookmark19 6.5 小结 59 HYPERLINK \l _bookmark20 第 7 章 总结与展望 60 HYPERLINK \l _bookmark20 7.1 总结 60 HYPERLINK \l _bookmark21 7.2 展望 61 致 谢62 HYPERLINK \l _bookmark22 参考文献 63 附 录67 贵州大学工学硕士学位论文 贵州大学工学硕士学位论文 i i 摘 要 随着互联网信息技术的不断发展,各种基于企业和政府内网的 B/S 应用不 断涌现。这些应用由于各种原因如安全、保密等因素不对外网开放,但同时又积 累了大量的数据。如何让用户快速有效地从这些数据中获得想要的信息为越来越 多研究者所关注,针对这些内网应用的搜索引擎功能也就应运而生。 本文首先对搜索引擎的原理、系统结构等方面做了分析与介绍,然后结合 Nutch 开源搜索引擎框架,对搜索引擎涉及到的一些关键技术进行了研究与分析。 在此基础上本文完成了以下几方面的工作: 1、针对内网环境下多站点信息分布的特点,本文分析了内网站点之间的内 容相关度(Relevance) 、重要性(Authority) 以及页面之间指出的超链和新颖程度 等因素,改进了原有 Nutch 爬虫的算法与爬行策略,从而提高了 Nutch 爬虫在内 网环境下对多站点信息的搜集处理能力。 2、本文采用了 Lucene 全文索引库来存储信息,并利用其完成了检索功能模 块的设计,然后针对内网索引数据量小,用户类型多的特点对检索进行了优化, 从而达到了降低索引存储时间,提高用户检索速度的效果。 3、本系统前台搜索功能使用了 J2EE 框架下的 MVC 分层模式来进行设计开 发。设计中首先使用 Nutch 插件

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档