- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
山东大学本科毕业论文
PAGE \* MERGEFORMAT1
目 录
TOC \o 1-3 \h \z \u 摘要 h I
ABSTRACT h II
第1章 绪论 h 1
1.1 课题研究背景 h 1
1.1.1 搜索引擎发展史 h 1
1.1.2 通用搜索引擎面临的问题 h 3
1.2主题搜索引擎 h 3
1.2.1 什么是主题搜索引擎 h 3
1.2.2 主题搜索引擎研究现状 h 4
1.3 文本组织结构 h 5
第2章 主题搜索引擎相关技术介绍 h 6
2.1 JavaCC简介 h 6
2.2 Tomcat 简介 h 8
2.3 Nutch介绍 h 9
2.3.1 系统架构 h 9
2.3.2 抓取过程详解 h 11
2.4 中文分词技术 h 13
2.4.1 基于字典匹配的分词方法 h 14
2.4.2 基于词频统计的分词方法 h 14
2.4.3 基于语义理解的分词方法 h 15
2.4.4 IK分词器简介 h 15
2.5 本章小结 h 15
第3章 爬虫搜索策略的研究 h 16
3.1 基于链接结构特征 h 16
3.1.1 PageRank算法 h 16
3.1.2 HITS算法 h 18
3.1.3 本文实现的算法 h 19
3.2 基于内容评价 h 20
3.2.1 Fish Search算法 h 20
3.2.2 Shark Search算法 h 21
3.3 其他相关策略 h 23
3.3.1基于巩固学习的聚焦搜索 h 23
3.3.2 基于语境图的聚焦搜索 h 23
3.4 本章小结 h 23
第4章 主题搜索引擎的实现 h 24
4.1 开发环境介绍 h 24
4.2 系统的体系结构 h 24
4.3 主题爬虫的配置 h 25
4.3.1 配置Java环境 h 25
4.3.2 配置Nutch h 25
4.4 Tomcat的配置 h 26
4.5 添加中文分词 h 28
4.6 系统测试 h 30
4.7 本章小结 h 31
第5章 总结与体会 h 32
致谢 h 33
参考文献 h 34
附录: h 35
摘要
互联网上丰富的信息资源给人们的工作和生活带来巨大效益和便利的同时,也带来了巨大的信息冗余。我们在使用传统的通用搜索引擎时,经常会遇到这样的问题,为了搜索到一些专业的基础知识,不得不在众多的网站中,花费大量的时间去寻找,而主题搜索引擎的出现为解决这类问题提供了很好的方法。
另外,由于Nutch具有高透明度,任何单位或个人都可以查看搜索引擎的工作原理并且程序设置灵活,用户可以根据自己需求定制,通过长时间的实际应用,结果表明Nutch运行非常稳定,因此选择Nutch为爱好搜索引擎的人们提供了一个很好的研究平台。
本课题的主要内容是基于Nutch的新闻主题搜索引擎的设计与实现。现在很多人都喜欢从互联网阅读新闻,但是各大新闻网站为了获得点击率收录了很多低质量新闻,而报纸网站很难满足人们对不同地域和不同类型新闻的需求,所以一个新闻主题的搜索引擎是十分有必要的。
论文首先介绍了搜索引擎的发展历史、面临的问题,以及主题搜索引擎的的优势和研究现状,并在了解Nutch工作原理的基础上对主题爬虫抓取策略进了详细的讨论,分析了新闻主题搜索引擎的可行方案,接着介绍了Nutch、Tomcat等各组件的安装配置,测试运行结果并与百度做比较。最后对论文进行了总结分析。
关键字:Nutch;搜索引擎;Crawler;抓取策略;新闻
ABSTRACT
Abundant Internet information resources bring enormous benefits and convenience for our work and life; these also bring a great deal of redundant information. When we use general Search Engine, we often encounter this problem; in order to search some basic professional knowledge, we had to spend a lot of time to find the knowledge in many websites. While the Vertical Search Engine will solve
文档评论(0)