- 1
- 0
- 约5.29万字
- 约 76页
- 2019-02-15 发布于上海
- 举报
HYPERLINK \l _bookmark0 4.3.1 开发平台、语言及工具30
HYPERLINK \l _bookmark1 4.3.2 Nutch 插件开发机制 31
HYPERLINK \l _bookmark2 4.3.3 二次开发的 MVC 模型 32
HYPERLINK \l _bookmark2 4.4 小结 32 HYPERLINK \l _bookmark3 第 5 章 基于用户特征的搜索平台详细设计 33
HYPERLINK \l _bookmark3 5.1 爬虫策略设计 33
HYPERLINK \l _bookmark3 5.1.1 Nutch 爬虫算法设计 33
HYPERLINK \l _bookmark4 5.1.2 爬行策略的设计与实现34
HYPERLINK \l _bookmark5 5.2 用户信息模块设计 38
HYPERLINK \l _bookmark5 5.2.1 数据库设计38
HYPERLINK \l _bookmark6 5.2.2 用户访问日志模块设计39
HYPERLINK \l _bookmark7 5.3 搜索排序模块设计 41
HYPERLINK \l _bookmark7 5.3.1 搜索模块算法的设计41
HYPERLINK \l _bookmark8 5.3.2 使用 Plugin 进行中文分词和结果过滤 42
HYPERLINK \l _bookmark9 5.3.3 调用 NutchAPI 返回结果 45
HYPERLINK \l _bookmark10 5.4 搜索平台前台页面的设计 46
HYPERLINK \l _bookmark10 5.4.1 搜索平台页面设计46
HYPERLINK \l _bookmark11 5.4.2 关键词高亮显示的设计47
HYPERLINK \l _bookmark12 5.4.3 分页功能48
HYPERLINK \l _bookmark13 5.5 小结 50
HYPERLINK \l _bookmark14 第 6 章 系统应用及优化 51
HYPERLINK \l _bookmark14 6.1 系统演示及存在的问题 51
HYPERLINK \l _bookmark14 6.1.1 系统演示51
HYPERLINK \l _bookmark15 6.1.2 存在的问题分析53
HYPERLINK \l _bookmark16 6.2 索引的性能优化 54
HYPERLINK \l _bookmark17 6.3 缓存的应用 56
HYPERLINK \l _bookmark18 6.4 Web 服务器端的 Tomcat 集群 58
HYPERLINK \l _bookmark19 6.5 小结 59
HYPERLINK \l _bookmark20 第 7 章 总结与展望 60
HYPERLINK \l _bookmark20 7.1 总结 60
HYPERLINK \l _bookmark21 7.2 展望 61
致 谢62
HYPERLINK \l _bookmark22 参考文献 63
附 录67
贵州大学工学硕士学位论文
贵州大学工学硕士学位论文
i
i
摘 要
随着互联网信息技术的不断发展,各种基于企业和政府内网的 B/S 应用不 断涌现。这些应用由于各种原因如安全、保密等因素不对外网开放,但同时又积 累了大量的数据。如何让用户快速有效地从这些数据中获得想要的信息为越来越 多研究者所关注,针对这些内网应用的搜索引擎功能也就应运而生。
本文首先对搜索引擎的原理、系统结构等方面做了分析与介绍,然后结合 Nutch 开源搜索引擎框架,对搜索引擎涉及到的一些关键技术进行了研究与分析。 在此基础上本文完成了以下几方面的工作:
1、针对内网环境下多站点信息分布的特点,本文分析了内网站点之间的内 容相关度(Relevance) 、重要性(Authority) 以及页面之间指出的超链和新颖程度 等因素,改进了原有 Nutch 爬虫的算法与爬行策略,从而提高了 Nutch 爬虫在内 网环境下对多站点信息的搜集处理能力。
2、本文采用了 Lucene 全文索引库来存储信息,并利用其完成了检索功能模 块的设计,然后针对内网索引数据量小,用户类型多的特点对检索进行了优化, 从而达到了降低索引存储时间,提高用户检索速度的效果。
3、本系统前台搜索功能使用了 J2EE 框架下的 MVC 分层模式来进行设计开 发。设计中首先使用 Nutch 插件
您可能关注的文档
- 基于NURBS的三维人体建模技术及在跳板跳水仿真系统中的应用-应用数学专业论文.docx
- 基于NURBS的隧道与地层一体化三维建模-地图学与地理信息系统专业论文.docx
- 基于NURBS近似模型的全局优化方法研究-机械工程专业论文.docx
- 基于NURBS曲面的船舶破舱稳性计算方法研究-船舶与海洋结构物设计制造专业论文.docx
- 基于NURBS曲面的三维地质建模及可视化-计算机应用技术专业论文.docx
- 基于NURBS曲线的多轴运动控制插补算法的研究-机械工程专业论文.docx
- 基于NURBS曲线的前瞻自适应插补算法研究-机械工程专业论文.docx
- 基于NUSAP方法的区域降雨频率计算不确定性分析-水文学及水资源专业论文.docx
- 基于NUSS手术的漏斗胸矫正手术方案研究-机械设计及理论专业论文.docx
- 基于Nutaq平台的高效多址接入协议的研究与实现-信息与通信工程专业论文.docx
原创力文档

文档评论(0)