- 50
- 0
- 约小于1千字
- 约 11页
- 2016-12-07 发布于湖北
- 举报
实验一:网络爬虫 实验说明 实验一学时数:4学时(10月10日、10月17日) 课堂上主要讲实验原理,课后请大家补充时间编码 实验结果:10月24日前提交实验报告、源代码与可执行程序打包文件到邮箱:1551739226@ 报告格式不限,但至少应包含实验原理说明、关键代码截图与解释、实验结果截图与解释、实验心得 严格按时间提交,过时不阅 网络爬虫 Crawler ,即Spider(网络爬虫),其定义有广义和狭义之分。狭义上指遵循标准的 http 协议,利用超链接和 Web 文档检索方法遍历万维网的软件程序;而广义的定义则是能遵循 http 协议,检索 Web 文档的软件都称之为网络爬虫。 网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。 爬虫基本原理 网络爬虫是通过网页的链接地址来寻找网页,从一个或若干初始网页的URL开始(通常是某网站首页),遍历 Web 空间,读取网页的内容,不断从一个站点移动到另一个站点,自动建立索引。在抓取网页的过程中,找到在网页中的其他链接地址,对 HTML 文件进行解析,取出其页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列,这样一直循环下去,直到把这个网站所有的网页都抓取完,满足系统的一定停止条件。 工作流程 通用网络爬虫是从一个或若干个初始网页的上的 URL 开始
您可能关注的文档
最近下载
- 2025年吉林省地理生物会考真题试卷(+答案).docx VIP
- 教习网-PPT课件,教案,试题试卷-教学资源下载网.docx VIP
- 13ZJ301建筑无障碍设施.docx VIP
- 医院检验科质量手册.doc VIP
- 034 烟气(风)道工程检查验收记录.doc VIP
- 安徽省农村信用社联合社招聘考试真题2025.docx VIP
- 中铁二十五局集团有限公司招聘笔试题库2023.pdf VIP
- 机床夹具设计 吴拓 孙英达 第3章 工件的夹紧新.ppt VIP
- 2026版光伏项目投资测算全流程SOP与检查清单S147(含台账模板、复盘表与责任矩阵).docx
- 2026年湖南高考化学试卷附答案(新课标卷).docx VIP
原创力文档

文档评论(0)