山东建筑工程大学计算机网络专业课程设计基于Python的网络爬虫设计.docVIP

山东建筑工程大学计算机网络专业课程设计基于Python的网络爬虫设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山东建筑大学 课 程 设 计 成 果 报 告 题 目: 基于Python网络爬虫设计 课 程: 计算机网络A 院 (部): 管理工程学院 专 业: 信息管理和信息系统 班 级: 学生姓名: 学 号: 指导老师: 完成日期: 目 录 TOC \o 1-3 \h \z \u 1984 1 设计目标 1 21183 2 设计任务内容 1 31377 3 网络爬虫程序总体设计 1 3037 4 网络爬虫程序具体设计 1 5152 4.1 设计环境和目标分析 1 913 4.1.1 设计环境 1 9857 4.1.2 目标分析 2 3097 4.2 爬虫运行步骤分析 2 18826 4.3 控制模块具体设计 3 31291 4.3 爬虫模块具体设计 3 21002 4.3.1 URL管理器设计 3 19372 4.3.2 网页下载器设计 3 10307 4.3.3 网页解析器设计 3 21226 4.4数据输出器具体设计 4 16859 5 调试和测试 4 22474 5.1 调试过程中碰到问题 4 8042 5.2测试数据及结果显示 5 22319 6 课程设计心得和体会 5 17183 7 参考文件 6 18437 8 附录1 网络爬虫程序设计代码 6 6111 9 附录2 网络爬虫爬取数据文档 9 1 设计目标 本课程设计是信息管理和信息系统专业关键实践性步骤之一,是在学生学习完《计算机网络》课程后进行一次全方面综合练习。本课程设计目标和任务: 1.巩固和加深学生对计算机网络基础知识了解和掌握; 2.培养学生进行对网络计划、管理及配置能力或加深对网络协议体系结构了解或提升网络编程能力; 3.提升学生进行技术总结和撰写说明书能力。 2 设计任务内容 网络爬虫是从web中发觉,下载和存放内容,是搜索引擎关键部分。传统爬虫从一个或若干初始网页URL开始,取得初始网页上URL,在抓取网页过程中,不停从目前页面上抽取新URL放入队列,直到满足系统一定停止条件。 参考开放源码分析网络爬虫实现方法,给出设计方案,画出设计步骤图。 选择自己熟悉开发环境,实现网络爬虫抓取页面、从而形成结构化数据基础功效,界面合适美化。给出软件测试结果。 3 网络爬虫程序总体设计 URL管理器 URL管理器 数据输出器网页下载器网页解析器爬虫控制器 数据输出器 网页下载器 网页解析器 爬虫控制器 在本爬虫程序中共有三个模块: 爬虫调度端:开启爬虫,停止爬虫,监视爬虫运行情况 爬虫模块:包含三个小模块,URL管理器、网页下载器、网页解析器。 URL管理器:对需要爬取URL和已经爬取过URL进行管理,能够从URL管理器中取出一个待爬取URL,传输给网页下载器。 网页下载器:网页下载器将URL指定网页下载下来,存放成一个字符串,传输给网页解析器。 网页解析器:网页解析器解析传输字符串,解析器不仅能够解析出需要爬取数据,而且还能够解析出每一个网页指向其它网页URL,这些URL被解析出来会补充进URL管理器 3、数据输出模块:存放爬取数据 4 网络爬虫程序具体设计 4.1 设计环境和目标分析 4.1.1 设计环境 IDE:pycharm Python版本:python2.7.13 4.1.2 目标分析 目标:从baidu词条Python开始,以广度优先方法,爬取相关联若干词条网页标题和介绍 (1)初始URL: (2)词条页面URL格式: 数据格式:标题——dd class=lemmaWgt-lemmaTitle-titleh1Python/h1 介绍——div class=lemma-summary label-module=lemmaSummary (4)页面编码:utf-8 4.2 爬虫运行步骤分析 爬虫程序运行步骤图所表示。 爬虫控制器从给定URL开始,将给定初始URL添加到URL管理器中,然后调用URL管理器相关方法,判定是否有待爬取URL URL判定是否有待爬取URL,假如有待爬取URL,则返回给控制器,控制器将这个URL传输给网页下载器,下载该网页 网页下载器将下载好数据返回给控制器,控制器再将返回数据传输给网页解析器解析 网页解析器解析网页以后获取网页数据和网页URL链接,再将这两个数据传输给控制器 控制器得到解析出来数据以后,将新URL链接传输给URL管理器,将价值数据传输给数据输出器输出 数据输出器以文本形式输出传输进来数据。 回到第一步,循环 4.3 控制模块具体设

文档评论(0)

159****1748 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档