- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE
毕 业 论 文
论文题目 网络爬虫的设计与实现
摘 要
随着互联网的发展以及网上信息的日益丰富,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时,常常要将分布在互联网各处的Web页面下载到本地供进一步处理。这便是所讨论的Web页面搜集工具——网络爬虫系统的核心功能。由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高、越来越细,基于整个Web 的信息采集越来越力不从心。同时它也无法迅速地搜集到足够的最新的网络信息,也不能满足人们日益增长的个性化需求。
本文所述的网络爬虫程序是采用Java和MySql 5.0实现的。随着网络的迅速发展,万维网成为大量信息的载体,搜索引擎需要获取大量的数据和超链接,如何更有效率的抓取到有用的网页和关键的信息,网络爬虫出现就是为了解决的这个问题。同时由于采用多线程并发工作方式,提高爬行的效率。文中给出了爬虫的具体工作流程、URL数据库结构以及相关算法。
关键词:网络爬虫 Java 信息抓取
目 录
TOC \o 1-3 \h \z \u 1 绪论 1
1.1概述 1
1.2 研究的意义 1
1.3 所开发的语言简介 2
1.4 本文技术介绍 2
1.4.1 Swing编程 3
1.4.2 多线程工作模式简介 3
1.4.3 JDBC访问数据库 5
2 系统总体分析与设计 7
2.1 系统需求分析 7
2.1.1系统总体用例图 7
2.1.1需求细分 7
2.2 系统技术 10
2.2.1搜索抓取策略比较 10
2.2.2正则表达式 13
2.2.3 字符串压缩算法分析 14
3 系统实现 15
3.1开发平台 15
3.2总体结构 16
3.2.1 分层结构 16
3.2.2 包结构 16
3.3各模块功能实现 16
3.2.1 网页下载模块 16
3.2.2 网页分析模块 18
3.2.3 pageRank计算模块 20
3.2.4 网页去重模块 21
3.2.5 网页的数据库管理模块(DAO) 22
3.2.6 工具包 23
4 数据库设计与实现 24
4.1 数据库表概念结构设计 24
4.2 数据库表逻辑结构设计 24
5 总结 26
参 考 文 献 27
英 文 摘 要 28
致 谢 29
仲恺农业工程学院毕业论文(设计)成绩评定表 30
PAGE 28
PAGE 1
1 绪论
1.1概述
随着互联网技术的不断发展,互联网信息呈现着爆炸式的增长,同时互联网用户对信息的需求也在不断增长,在巨大的用户需求中,搜索引擎应运而生,其中Google和百度分别是国内外两大顶级的通用搜索引擎,拥有着庞大的用户数量。但是随着用户对信息需求的不断具体化与精确化,通用搜索引擎中抓取的广度、搜索的精确度与更新的速度这三大难题阻碍着其满足互联网用户对信息具体化和精确化需求,因此主题搜索开始出现。主题搜索是针对某一个专门领域的信息进行搜索,满足互联网用户对信息具体化和精确化的需求。 无论是通用搜索引擎,还是主题搜索引擎,网络爬虫(Web Crawler)在其中都扮演着重要的角色。网络爬虫是搜索引擎获取网页的主要工具,搜索引擎通常在网络爬虫所抓取的网页中对用户的搜索进行匹配,从而得到搜索结果提供给用户。网络爬虫的搜索策略是网络爬虫的实现关键,是搜索引擎的核心技术,同时也通用搜索与主题搜索的最大区别之所在。
本文对当前搜索引擎中的集中搜索策略进行介绍与比较, 研究其中主题搜索较适合的搜索策略,并在此基础上,使用Java多线程实现网络爬虫。
网络爬虫系统的最大特色是采用多网络爬虫线程并行工作的方式, 每一个网
络爬虫爬取某一个具体的Web站点。这样做的优点有:
1.多线程并发工作的,提高了爬取效率;
2.对一个站点并发搜集的线程数目为1,从而避免了对搜集站点的攻击,防止了Web
服务器预备队列的溢出;
3. 与用户的可交互性强,站点在经过用户审核后才交给网络爬虫爬取。从而使用户可以控制网络爬虫系统爬取的方向。
1.2 研究的意义
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:
(1) 不同领域、不同背景的用户往往具有不同的检
您可能关注的文档
最近下载
- 人流健康宣教ppt课件.pptx VIP
- 国开一网一 电子商务概论 实践任务(B2B电子商务网站调研报告).doc
- 工厂电工班安全培训课件.pptx VIP
- 《干粉灭火装置技术规程》CECS322:2012.docx
- (一诊)绵阳市2023级高三第一次诊断考试物理试卷A卷(含答案).docx
- 正和岛入岛申请表(更新版20141022).docx VIP
- 第二单元(知识清单)-2023-2024学年四年级语文上册单元速记·巧练(统编版).docx VIP
- DL_T 793.7-2022 发电设备可靠性评价规程 第7部分:光伏发电设备.docx VIP
- 整理超级个人简历模板(修改完后别忘了生成pdf再打印).doc VIP
- 2024智慧仓储解决方案[48页PPT].pptx VIP
原创力文档


文档评论(0)