- 33
- 0
- 约5.32千字
- 约 6页
- 2017-03-26 发布于重庆
- 举报
网络爬虫技术的概述与研究
网络爬虫技术的概述与研究
摘要
网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络的迅速发展,成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。 (Search Engine),例如传统的AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。(或称为服务方式)。
·第二部分是存有该资源的主机IP地址(有时也包括端口号)。
·第三部分是主机资源的具体地址,如目录和文件名等。
第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。
用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。例如file:///pub/files/foobar.txt
爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。
2、传统爬虫与聚焦爬虫
网络爬虫是一个自动提取网页的程序,它为搜索引
您可能关注的文档
最近下载
- 失语症的评定课件.pptx VIP
- 铁路工务信息综合管理平台建设方案.docx VIP
- 失语症评定郑若楠课件.pptx VIP
- 2026年境外人员住宿登记方案.docx VIP
- 2025年(游戏艺术设计)游戏测试技术试题及答案.doc VIP
- 电线电缆质检员检验工历年考试培训基础知识试题及答案.docx VIP
- 浏河小学党风廉政风险防范措施.docx VIP
- 超星尔雅学习通《大数据与人工智能导论(厦门大学)》章节测试附答案 .pdf VIP
- 专题14 选择性必修3:文化交流与传播(知识清单)(全国通用)2026年高考历史一轮复习讲练测.pdf VIP
- 10以内加减法口算100题(可直接打印).pdf VIP
原创力文档

文档评论(0)