基于广度优先算法的多线程爬虫程序毕业设计.doc

基于广度优先算法的多线程爬虫程序毕业设计.doc

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于广度优先算法的多线程爬虫程序毕业设计 目录 1 绪论 1 1.1 网络爬虫的发展 1 1.2 国内外技术发展现状 2 1.3 系统设计的意义 3 2 总体设计方案 4 2.1 系统设计方案 4 2.2 系统设计框图 4 2.3 网络爬虫的相关技术 5 2.3.1 URL 5 2.3.2 HTTP协议 6 2.3.3 JAVA多线程 9 2.3.4 JAVA网络编程 16 3 系统软件设计 21 3.1 系统软件概述 21 3.2 Eclipse软件介绍 21 3.3 服务器端设计 22 3.3.1 网本页解析部分 22 3.3.2 获取新的网络代理部分 36 3.4.1 登录部分 37 3.4.2 Table 模块 37 3.4.2 上传档及查询部分 39 3.5 Socket通信部分 39 3.5.1 什么是Socket 39 3.5.2 服务端部分 44 3.5.3 客户端部分 46 4 系统运行 48 4.1 服务器端界面 48 4.2 客户端界面 50 结论 51 致 谢 52 参考文献 53 外文资料原文 55 附录B 汉语翻译 62 附录C 程序代码 66 1 绪论 1.1 网络爬虫的发展 在互联发数对较数较随联喷的发络户数据简数捞针为满众息检索专业应运 所有搜索引擎的鼻祖,是1990年由Montreal的McGill University三名学Alan Emtage、Peter Deutsch、Bill Wheelan)发Archie(Archie FAQ)。Alan Emtage等想到了开发个统Archie。Archie是第一个动联FTP网站文件的程序,但它还Archie是一个FTP文件名列表,用户须输Archie会诉户个FTP载该Archie深受欢启发,Nevada System Computing Services学1993年开发个GopherGopher FAQ)搜索工具Veronica(Veronica FAQ)。Jug head是后来另个Gopher虽然当时维还现络档传输还当频个FTP主机中,查询来非Alan Archie工作原理与现经脚动对关息进达式询。 当时词在编计Computer Robot)是指某个类无达间断执项务软专门用检索样络间来称为 世界上第一个监测联发规Matthew Gray开发的World wide Web Wanderer刚开始它来统计联务器数来则发为够检索网Wanderer相对应Martin Kosher于1993年10月创ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动来链接类现我们Yahoo。 随着联发检索现页变来难Matthew Gray的Wanderer基础编将传统进。编这样设页连链接从踪个链接开始检索个联1993年底,一些基于此原理的搜索引擎开始纷纷现数库结无关联RBSE是第一个结关键词现义现1994年7月。当时Michael Mauldin将John Leavitt创家现Lycos(2000年被西班牙网络团Terra Lycos Network购4月,斯坦福(Stanford)大学最为两华人杨远(Gerry YangDavid Filo共同创办了Yahoo从进发时联达数检索从语国Google,国内这样数为互联并带来了业 1.2 国内术发现状为业应带来了业为络术应当为国内热点对络究从纪开始术经当Baidu和Google这样络纷纷络组 现今,网络为通两类标尽络盖于关键词检索。个动载页标选择访问维页关的链接获(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖将标定为题内关的页为面题的户询备数资时语义询。 网络的发趋势随着AJAX/Web2.0术AJAX等动态页决问题,旧无AJAX页数 除此之外,网络还对着这问题[5]): 1、强Cookies。部分站长为让户记陆强户Cookies。如果未开启则无进访问访问页显会正这会让无进访问 2、登陆业个设册陆关的内这对会注册会登陆3、动态URL动态URL简单说带问号号参数动态URL动态URL4、Flash。有的网站页Flash视觉Flash做的Logo、广图这对录没问题的,页个Flash档,这时HTML码个链接没虽然Flash效果看上去很好,外观着也无读内 5、无休止的跳转。对搜索引擎来说只对301跳转相对来说比较友好,对其他形式的跳转都是比较敏感,例如:JavaScript跳转、Meta Refresh跳转、Flash跳转、302跳转。 1.3 系统设计的意义 本文通过JAVA语实现个广历多线过实现

您可能关注的文档

文档评论(0)

你好世界 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档