- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Nutch的新闻主题搜索引擎的设计与实现.
毕 业 论 文(设 计)
论文(设计)题目:
基于Nutch的搜索引擎的设计与实现
学 号
学 院
专 业
年 级
指导教师
2014年月 20日
摘要 I
ABSTRACT II
第1章 绪论 1
1.1 课题研究背景 1
1.1.1 搜索引擎发展史 1
1.1.2 通用搜索引擎面临的问题 3
1.2主题搜索引擎 3
1.2.1 什么是主题搜索引擎 3
1.2.2 主题搜索引擎研究现状 4
1.3 文本组织结构 5
第2章 主题搜索引擎相关技术介绍 6
2.1 JavaCC简介 6
2.2 Tomcat 简介 8
2.3 Nutch介绍 9
2.3.1 系统架构 9
2.3.2 抓取过程详解 11
2.4 中文分词技术 13
2.4.1 基于字典匹配的分词方法 14
2.4.2 基于词频统计的分词方法 14
2.4.3 基于语义理解的分词方法 15
2.4.4 IK分词器简介 15
2.5 本章小结 15
第3章 爬虫搜索策略的研究 16
3.1 基于链接结构特征 16
3.1.1 PageRank算法 16
3.1.2 HITS算法 18
3.1.3 本文实现的算法 19
3.2 基于内容评价 20
3.2.1 Fish Search算法 20
3.2.2 Shark Search算法 21
3.3 其他相关策略 23
3.3.1基于巩固学习的聚焦搜索 23
3.3.2 基于语境图的聚焦搜索 23
3.4 本章小结 23
第4章 主题搜索引擎的实现 24
4.1 开发环境介绍 24
4.2 系统的体系结构 24
4.3 主题爬虫的配置 25
4.3.1 配置Java环境 25
4.3.2 配置Nutch 25
4.4 Tomcat的配置 26
4.5 添加中文分词 28
4.6 系统测试 30
4.7 本章小结 31
第5章 总结与体会 32
致谢 33
参考文献 34
附录: 35
摘要
互联网上丰富的信息资源给人们的工作和生活带来巨大效益和便利的同时,也带来了巨大的信息冗余。我们在使用传统的通用搜索引擎时,经常会遇到这样的问题,为了搜索到一些专业的基础知识,不得不在众多的网站中,花费大量的时间去寻找,而主题搜索引擎的出现为解决这类问题提供了很好的方法。
另外,由于Nutch具有高透明度,任何单位或个人都可以查看搜索引擎的工作原理并且程序设置灵活,用户可以根据自己需求定制,通过长时间的实际应用,结果表明Nutch运行非常稳定,因此选择Nutch为爱好搜索引擎的人们提供了一个很好的研究平台。
本课题的主要内容是基于Nutch的新闻主题的与实现很多人都喜欢从互联网阅读新闻,但是各大新闻网站为了获得点击率收录了很多低质量,而很难满足人们地域不同类型新闻的需求所以一个新闻主题的搜索引擎是十分有必要的。
首先介绍了搜索引擎的、面临的问题,主题搜索引擎的的优势研究现状并Nutch工作原理的基础上主题爬虫抓取策略进了详细的了新闻主题搜索引擎的方案,了、Tomcat等各组件的安装配置,测试结果并与百度做比较。进行了总结分析。
Nutch;搜索引擎;Crawler;抓取策略;
ABSTRACT
Abundant Internet information resources bring enormous benefits and convenience for our work and life; these also bring a great deal of redundant information. When we use general Search Engine, we often encounter this problem; in order to search some basic professional knowledge, we had to spend a lot of time to find the knowledge in many websites. While the Vertical Search Engine will solve this problem.
In addition, Nutch has highly transparent, any unit or individual can view the search engine work, and the program configuration flexibility, Users can cu
您可能关注的文档
- 基于Labview的压力测试系统..doc
- 基于labVIEW的双轮自平衡小车..doc
- 基于LabVIEW的四自由度机械臂控制设计..doc
- 基于LabVIEW和网络的转子试验台测试系统开发.doc
- 基于JSP的网上处方跟踪系统.doc
- 基于LED点阵的交通灯信号系统模拟..doc
- 基于Linux的防火墙设计与实现..doc
- 基于L6561高功率因数反激变换器..doc
- 基于LMS自适应滤波的心电信号提取.docx
- 基于labview的振动信号采集的设计..doc
- 第12课 大一统王朝的巩固 课件(20张ppt).pptx
- 第17课 君主立宪制的英国 课件.pptx
- 第6课 戊戌变法 课件(22张ppt).pptx
- 第三章 物态变化 第2节_熔化和凝固_课件 (共46张ppt) 人教版(2024) 八年级上册.pptx
- 第三章 物态变化 第5节_跨学科实践:探索厨房中的物态变化问题_课件 (共28张ppt) 人教版(2024) 八年级上册.pptx
- 2025年山东省中考英语一轮复习外研版九年级上册.教材核心考点精讲精练(61页,含答案).docx
- 2025年山东省中考英语一轮复习(鲁教版)教材核心讲练六年级上册(24页,含答案).docx
- 第12课近代战争与西方文化的扩张 课件(共48张ppt)1.pptx
- 第11课 西汉建立和“文景之治” 课件(共17张ppt)1.pptx
- 唱歌 跳绳课件(共15张ppt内嵌音频)人音版(简谱)(2024)音乐一年级上册第三单元 快乐的一天1.pptx
文档评论(0)