- 1、本文档共28页,其中可免费阅读9页,需付费100金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫的设计与实现摘要网络爬虫将下载的网页和收集到的网页信息存储在本地数据库中以供搜索引擎使用它是一个专门从万维网上下载网页并分析网页的程序随着网络的快速发展人们对搜索引擎的要求也越来越高而网络爬虫的效率直接影响着搜索引擎的质量本课题研究的是通用网络爬虫它是从一个或若干个初始网页的链接开始进而得到一个链接队列伴随着网页的抓取又不断从抓取到的网页中抽取新链接放入到链接队列中直到爬虫系统满足了停止条件该课题主要涉及到了缓冲池技术多线程技术套接字技术和协议正则表达式网络编程技术勺使用等相关技术本说明
PAGE
PAGE #
网络爬虫的设计与实现
摘要
网络爬虫将下载的网页和收集到的网页信息存储在本地数据库中以供搜索 引擎使用, 它是一个专门从万维网上下载网页并分析网页的程序。 随着网络的快 速发展,人们对搜索引擎的要求也越来越高, 而网络爬虫的效率直接影响着搜索 引擎的质量。
本课题研究的是通用网络爬虫, 它是从一个或若干个初始网页的链接开始进 而得到一个链接队列。 伴随着网页的抓取又不断从抓取到的网页中抽取新链接放 入到链接队列中, 直到爬虫系统满足了停止条件。 该课题主要涉及到了缓冲池技 术,多线程技术,套接字技术,HTTP和SSL协议,正则表达式,Linux网络编程 技术,
文档评论(0)