深度学习技术应用 课件 项目二:数据集准备.pptx

深度学习技术应用 课件 项目二:数据集准备.pptx

项目二:数据集准备;什么是爬虫

爬虫基本流程

网页基本结构;;网页的请求和响应方式是Request和Response

Request:用户将自己的信息通过浏览器(socketclient)发送给服务器(socketserver)

Response:服务器接收请求,分析用户发来的请求信息,收到请求信息后返回数据(返回的数据中可能包含其他链接,如:image、js、css等)

浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。下图为爬虫具体流程。;网页一般由三部分组成,分别是HTML(超文本标记语言)、

文档评论(0)

1亿VIP精品文档

相关文档