HttpClient和HtmlParser实现爬虫剖析.docx

HttpClient和HtmlParser实现爬虫剖析

网络爬虫技术 什么叫网络爬虫  HYPERLINK /view/284853.htm \t _blank 网络爬虫(又被称为网页 HYPERLINK /subview/8483/5395928.htm \t _blank 蜘蛛,网络机器人,在 HYPERLINK /view/271451.htm \t _blank FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 HYPERLINK /view/7833.htm \t _blank 万维网信息的程序或者脚本。另外一些不常使用的名字还有 HYPERLINK /subview/3312/6169348.htm \t _blank 蚂蚁、自动索引、模拟程序或者 HYPERLINK /view/2596.htm \t _blank 蠕虫。 网络爬虫的分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型: 通用网络爬虫(General Purpose Web Crawler) ; 主题网络爬虫(Topical Web Crawler) ; 深层网络爬虫(Deep Web Crawler)。 实际应用中通常是将系统几种爬虫技术相互结合。 通用网络爬虫 通用网络爬虫根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断从URL队列中获

文档评论(0)

1亿VIP精品文档

相关文档