- 172
- 0
- 约5.05千字
- 约 15页
- 2016-11-26 发布于湖北
- 举报
Linux实训项目网络爬虫系统概要
什么是爬虫
是一个软件机器人,是可控的,可以可以从互联网上抓取我们所需的资源。爬虫是搜索引擎后台的第一个子系统,数据入口之一。
爬虫能做什么
搜索引擎的基础应用
抓取大数据的一种手段
网页下载器
网店秒杀
关于项目
时间安排:4天
关于需求、设计、编码、测试、集成
需求:
设计:分为业务设计和技术设计。
业务设计是业务层的方案。
对我们软件设计师来讲,业务就是我们的系统想要完成一个工作,要经过哪些步骤或流程。
技术设计:关于框架和处理流程,注意要采用面向对象的思维方式。
编码:使用基本的技术细节进行系统实现
测试:对是对我们系统可靠性的一个监测
集成:将每个程序员开发的模块或子系统合成为一个完成的系统
思维方式:线性思维方式与发散思维方式。
软件开发要掌握的思想:
模块思维
渐进式开发
需求:
自动抓取网络资源的软件。
资源是什么? 网页、图片、音乐、视频等
自动化是什么样子?一旦运行就不需要更多的干预。
生成需求说明文档。
内容:对需求中不明确或不完善的说明进行解释。
功能点、附加要求、性能要求等
设计
业务设计:
如何思考并完成设计?
注意:从顶层开始思考并设计,避免过早的陷入细节。
系统最粗浅的数据流
设计处理流程:
1、得到爬取种子(URL)
2、根据爬取种子下载资源(页面)
3、解析页面,提取更多的URL
4、对页面做持久化操作
5、
您可能关注的文档
最近下载
- 宣贯培训(2026)《QBT 4008-2022螺纹密封用聚四氟乙烯未烧结带 (生料带)》.pptx VIP
- 基于AD9833的信号发生器的设计与实现.doc VIP
- 八省八校T8联考2026届高三下学期4月联合测评试题(晋冀鄂版)语文含答案解析.docx VIP
- 冠词(23张)课件课件.ppt VIP
- 在线网课学堂《项目成本管理》单元考核测试答案.docx VIP
- 2《立在地球边上放号》《红烛》《峨日朵雪峰之侧》《致云雀》公开课一等奖创新教案统编版高中语文必修上册.docx VIP
- 北京燕山教育集团2025一2026学年第二学期九年级期中考试数学试卷(含答案).pdf VIP
- [初中语文]中考语文备考++文言文阅读课件.pptx VIP
- 南航招飞PAT测试2025年真题题库 附逐题答案解析.doc VIP
- 新02J01工程做法图集.pdf
原创力文档

文档评论(0)