网络爬虫项目教案分析.docxVIP

  • 172
  • 0
  • 约5.05千字
  • 约 15页
  • 2016-11-26 发布于湖北
  • 举报
Linux实训项目网络爬虫系统概要 什么是爬虫 是一个软件机器人,是可控的,可以可以从互联网上抓取我们所需的资源。爬虫是搜索引擎后台的第一个子系统,数据入口之一。 爬虫能做什么 搜索引擎的基础应用 抓取大数据的一种手段 网页下载器 网店秒杀 关于项目 时间安排:4天 关于需求、设计、编码、测试、集成 需求: 设计:分为业务设计和技术设计。 业务设计是业务层的方案。 对我们软件设计师来讲,业务就是我们的系统想要完成一个工作,要经过哪些步骤或流程。 技术设计:关于框架和处理流程,注意要采用面向对象的思维方式。 编码:使用基本的技术细节进行系统实现 测试:对是对我们系统可靠性的一个监测 集成:将每个程序员开发的模块或子系统合成为一个完成的系统 思维方式:线性思维方式与发散思维方式。 软件开发要掌握的思想: 模块思维 渐进式开发 需求: 自动抓取网络资源的软件。 资源是什么? 网页、图片、音乐、视频等 自动化是什么样子?一旦运行就不需要更多的干预。 生成需求说明文档。 内容:对需求中不明确或不完善的说明进行解释。 功能点、附加要求、性能要求等 设计 业务设计: 如何思考并完成设计? 注意:从顶层开始思考并设计,避免过早的陷入细节。 系统最粗浅的数据流 设计处理流程: 1、得到爬取种子(URL) 2、根据爬取种子下载资源(页面) 3、解析页面,提取更多的URL 4、对页面做持久化操作 5、

文档评论(0)

1亿VIP精品文档

相关文档