网络爬虫项目教案分析.docxVIP

下载本文档

172
0
约5.05千字
约 15页
2016-11-26 发布于湖北
举报

网络爬虫项目教案分析.docx

Linux实训项目网络爬虫系统概要什么是爬虫是一个软件机器人，是可控的，可以可以从互联网上抓取我们所需的资源。爬虫是搜索引擎后台的第一个子系统，数据入口之一。爬虫能做什么搜索引擎的基础应用抓取大数据的一种手段网页下载器网店秒杀关于项目时间安排：4天关于需求、设计、编码、测试、集成需求：设计：分为业务设计和技术设计。业务设计是业务层的方案。对我们软件设计师来讲，业务就是我们的系统想要完成一个工作，要经过哪些步骤或流程。技术设计：关于框架和处理流程，注意要采用面向对象的思维方式。编码：使用基本的技术细节进行系统实现测试：对是对我们系统可靠性的一个监测集成：将每个程序员开发的模块或子系统合成为一个完成的系统思维方式：线性思维方式与发散思维方式。软件开发要掌握的思想：模块思维渐进式开发需求：自动抓取网络资源的软件。资源是什么？网页、图片、音乐、视频等自动化是什么样子？一旦运行就不需要更多的干预。生成需求说明文档。内容：对需求中不明确或不完善的说明进行解释。功能点、附加要求、性能要求等设计业务设计：如何思考并完成设计？注意：从顶层开始思考并设计，避免过早的陷入细节。系统最粗浅的数据流设计处理流程： 1、得到爬取种子（URL） 2、根据爬取种子下载资源（页面） 3、解析页面，提取更多的URL 4、对页面做持久化操作 5、

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

网络爬虫项目教案分析.docxVIP