网络爬虫的设计和实现完整版分解.doc

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫设计和实现 摘 要 网络爬虫将下载网页和搜集到网页信息存放在当地数据库中以供搜索引擎使用,它是一个专门从万维网上下载网页并分析网页程序。伴随网络快速发展,大家对搜索引擎要求也越来越高,而网络爬虫效率直接影响着搜索引擎质量。 本课题研究是通用网络爬虫,它是从一个或若干个初始网页链接开始进而得到一个链接队列。伴伴随网页抓取又不停从抓取到网页中抽取新链接放入到链接队列中,直到爬虫系统满足了停止条件。该课题关键包含到了缓冲池技术,多线程技术,套接字技术,HTTP和SSL协议,正则表示式,Linux网络编程技术,PHP+Apache使用等相关技术。 本说明书叙述网络爬虫是以Linux C实现,加以PHP语言编写界面使用户愈加方面操作,利用Shell脚本和Apache服务器使得爬虫系统和界面很好结合在一起。 关键词:网络爬虫 缓冲池 正则表示式 SSL协议 多线程 目 次 TOC \o "1-3" \h \z \u 1 引言 1 1.1 课题选题背景 1 1.2 课题研究意义 2 2 需求分析 3 2.1 功效需求分析 3 2.2 系统性能分析 4 3 系统设计 5 3.1 系统工作步骤图 5 3.2 数据结构设计 6 3.3 系统各功效步骤图 7 4 系统实现 10 4.1 相关技术分析 10 4.2 系统功效模块实现 11 5 测试和结果 17 结论 23 致 谢 24 参 考 文 献 25 1 引言 伴随网络技术日新月异发展,互联网俨然已成为信息最大载体。为了能够在浩瀚信息海洋中正确地查询用户所需要信息,搜索引擎技术应运而生。现在比较流行搜索引擎是谷歌和baidu,她们拥有着庞大用户数量。 作为搜索引擎关键组成部分,网络爬虫设计直接影响着搜索引擎质量。 网络爬虫是一个专门从万维网上下载网页并分析网页程序。它将下载网页和采集到网页信息存放在当地数据库中以供搜索引擎使用。网络爬虫工作原理是从一个或若干初始网页链接开始进而得到一个链接队列。伴伴随网页抓取又不停从抓取到网页里抽取新链接放入到链接队列中,直到爬虫程序满足系统某一条件时停止。 本说明书对课题背景进行简单介绍同时,又对研究网络爬虫意义进行了叙述,在此基础上,具体介绍来了利用C语言在linux系统上开发出多线程网络爬虫设计步骤。 1.1 课题选题背景 搜索引擎是用户在网上冲浪时常常使用一个工具,毫无疑问,每个用户全部能够经过搜索引擎得到自己所需要网络资源。搜索引擎一词在互联网领域得到广泛应用,不过每个地域对它又有着不一样了解。在部分欧美国家搜索引擎常常是基于因特网,它们经过网络爬虫程序采集网页,而且索引网页每个词语,也就是全文检索。而在部分亚洲国家,搜索引擎通常是基于网站目录搜索服务。 总来说:搜索引擎只是一个检索信息工具。它检索方法分为以下两种:一个是目录型方法,爬虫程序把网络资源采集在一起,再依据资源类型不一样而分成不一样目录,然后继续一层层地进行分类,大家查询信息时就是按分类一层层进入,最终得到自己所需求信息。另一个是用户常常使用关键字方法, 搜索引擎依据用户输入关键词检索用户所需资源地址,然后把这些地址反馈给用户。 1.2 课题研究意义 网络在我们生活中越来越关键,网络信息量也越来越大,研究该课题能够愈加好了解网络爬虫在搜索引擎中作用和网络爬虫原理。现实中,通常服务器大多是linux系统该课题愈加好配合了linux系统上运行爬虫程序,加上界面更轻易操作。二十一世纪是一个讲究信息安全时代,于是网站上出现了越来越多https(超文本传输安全协议)协议链接,该课题很好利用了SSL协议处理了下载https协议链接问题。设备内存是珍贵,怎样愈加合理有效地利用内存提升内存利用率是值得研究,该课题为了处理内存利用使用了内存池来提升内存使用率。 2 需求分析 网络爬虫是一个专门从万维网上下载网页并分析网页程序。它将下载网页和搜集到信息存放在当地数据库中以供搜索引擎使用。网络爬虫工作原理是从一个或若干初始网页链接开始进而得到一个链接队列。伴伴随网页抓取又不停从抓取到网页里抽取新链接放入到链接队列中,直到爬虫程序满足系统某一条件时停止。它是搜索引擎关键组成部分。 2.1 功效需求分析 网页下载功效 能够下载任何http协议和https协议链接网页。 结构HTTP请求中GET请求。 分析HTTP响应请求。 网页分析功效 提取网页标题。 提取网页关键字。 提取网页摘要。 提取网页链接并统计数量。 把新链接加入到URL队列。 内存池功效 能够分配固定大小内存。 能够回收内存对象

文档评论(0)

159****9606 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档