- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫的软件需求
课题名称: Web资源自动获取技术研究与应用(JAVA实现)
学 校: 海 南 大 学
学 院: 信息科学与技术学院
专业班别: 计算机科学与技术专业1班
姓 名: 黎绍丹
指导教师:
完成日期:
摘要
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:
(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。
(2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
(3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。
(4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。网络爬虫程序,WEB爬虫,网页蜘蛛,网络机器人Abstract
This paper first introduces the key techniques and theories which are required in the realization of the extensible Spider, on the basis of which we then use the oriented-object methods to have analyzed and designed a Web Spider with extensibility. Finally, the programming work has been realized on the JCreator platform with the Java language.
The designing of the extensible Spider is made up of two major parts: the Client crawler and the Server monitor. The Client is responsible for the collection job, which receives URL of the web pages to be crawled from the server and transmits those out of its crawling range. In order to reduce the response time, the collection has borrowed the multithreading technique to improve the system’s performance. The URL transition has utilized the “Character Conversion” function of the MD5 algorithm and the “Splitting Constructor” of the hashing function. The server monitor takes charge of the arrangement of the active spiders and the transition of the arriving URL: the system would allocate an unique ID for every crawler to realize unified management as well as making a reasonable judgment f
您可能关注的文档
最近下载
- 2025年道路交通安全法律法规知识竞赛题库及答案(共770题) .pdf
- 黑龙江省绥化市2024年中考语文模拟题试题(含解析)[1].doc
- 2025年山西卫生健康职业学院单招职业倾向性测试题库及完整答案1套.docx VIP
- 肱骨近端骨折护理查房.ppt VIP
- 八年级下册物理期中复习(压轴60题19大考点)-八年级下册物理同步知识解读与专题训练(苏科版)(解析版).docx
- 【行业标准】Q∕CR 9205-2015 铁路工程试验表格.pdf
- 遵义会议课件演示.pptx VIP
- 脉管系统—心血管系统(解剖学课件).pptx
- 安达VCD-1000无感矢量变频器使用说明书.pdf
- 中班健康《五官在哪里》.ppt VIP
文档评论(0)