网络爬虫的设计实现(完整版).doc

下载文档 降价啦

7
0
约1.07万字
约 28页
2018-11-16 发布于浙江
举报
版权申诉
保障服务

网络爬虫的设计实现(完整版).doc

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络爬虫的设计实现(完整版)

PAGE 25 网络爬虫的设计与实现摘要网络爬虫将下载的网页和收集到的网页信息存储在本地数据库中以供搜索引擎使用，它是一个专门从万维网上下载网页并分析网页的程序。随着网络的快速发展，人们对搜索引擎的要求也越来越高，而网络爬虫的效率直接影响着搜索引擎的质量。本课题研究的是通用网络爬虫，它是从一个或若干个初始网页的链接开始进而得到一个链接队列。伴随着网页的抓取又不断从抓取到的网页中抽取新链接放入到链接队列中，直到爬虫系统满足了停止条件。该课题主要涉及到了缓冲池技术，多线程技术，套接字技术，HTTP和SSL协议，正则表达式，Linux网络编程技术，PHP+Apache的使用等相关技术。本说明书叙述的网络爬虫是以Linux C实现的，加以PHP语言编写的界面使用户更加方面的操作，利用Shell脚本和Apache服务器使得爬虫系统和界面很好的结合在一起。关键词：网络爬虫缓冲池正则表达式 SSL协议多线程目次 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc326249757 1 引言 PAGEREF _Toc326249757 \h 1 HYPERLINK \l _Toc326249758 1.1 课题选题背景 PAGEREF _Toc326249758 \h 1 HYPERLINK \l _Toc326249759 1.2 课题研究的意义 PAGEREF _Toc326249759 \h 2 HYPERLINK \l _Toc326249760 2 需求分析 PAGEREF _Toc326249760 \h 3 HYPERLINK \l _Toc326249761 2.1 功能需求分析 PAGEREF _Toc326249761 \h 3 HYPERLINK \l _Toc326249762 2.2 系统性能分析 PAGEREF _Toc326249762 \h 4 HYPERLINK \l _Toc326249763 3 系统设计 PAGEREF _Toc326249763 \h 5 HYPERLINK \l _Toc326249764 3.1 系统工作流程图 PAGEREF _Toc326249764 \h 5 HYPERLINK \l _Toc326249765 3.2 数据结构设计 PAGEREF _Toc326249765 \h 6 HYPERLINK \l _Toc326249766 3.3 系统各功能流程图 PAGEREF _Toc326249766 \h 7 HYPERLINK \l _Toc326249767 4 系统实现 PAGEREF _Toc326249767 \h 10 HYPERLINK \l _Toc326249768 4.1 相关技术分析 PAGEREF _Toc326249768 \h 10 HYPERLINK \l _Toc326249769 4.2 系统功能模块的实现 PAGEREF _Toc326249769 \h 11 HYPERLINK \l _Toc326249770 5 测试与结果 PAGEREF _Toc326249770 \h 17 HYPERLINK \l _Toc326249771 结论 PAGEREF _Toc326249771 \h 23 HYPERLINK \l _Toc326249772 致谢 PAGEREF _Toc326249772 \h 24 HYPERLINK \l _Toc326249773 参考文献 PAGEREF _Toc326249773 \h 25 1 引言随着网络技术日新月异的发展，互联网俨然已成为信息的最大载体。为了能够在浩瀚的信息海洋中精确地查询用户所需要的信息，搜索引擎技术应运而生。目前比较流行的搜索引擎是Google和百度，他们拥有着庞大的用户数量。作为搜索引擎的重要组成部分，网络爬虫的设计直接影响着搜索引擎的质量。网络爬虫是一个专门从万维网上下载网页并分析网页的程序。它将下载的网页和采集到的网页信息存储在本地数据库中以供搜索引擎使用。网络爬虫的工作原理是从一个或若干初始网页的链接开始进而得到一个链接队列。伴随着网页的抓取又不断从抓取到的网页里抽取新的链接放入到链接队列中，直到爬虫程序满足系统的某一条件时停止。本说明书对课题背景进行简单介绍的同时，又对研究网络爬虫的意义进行了叙述，在此基础上，详细的介绍来了利用C语言在linux系统上开发出多线程网络爬虫的设计步骤。 1.1 课题选题背景搜索引擎是用户在网