HttpClient和HtmlParser实现爬虫解析.docxVIP

下载本文档

12
0
约1.81万字
约 26页
2017-01-10 发布于湖北
举报

HttpClient和HtmlParser实现爬虫解析.docx

HttpClient和HtmlParser实现爬虫解析

网络爬虫技术什么叫网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫的分类网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫(General Purpose Web Crawler) ；主题网络爬虫(Topical Web Crawler) ；深层网络爬虫(Deep Web Crawler)。实际应用中通常是将系统几种爬虫技术相互结合。通用网络爬虫通用网络爬虫根据预先设定的一个或若干初始种子URL开始，以此获得初始网页上的URL列表，在爬行过程中不断从URL队列中获一个的URL，进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容，将摘要、URL等信息保存到Web数据库中，同时抽取当前页面上新的URL，保存到URL队列，直到满足系统停止条件。其工作流程如图1所示。通用爬虫主要存在以下几方面的局限性：由于抓取目标是尽可能大的覆盖网络，所以爬行的结果中包含大量用户不需要的网页；不能很好地搜索和获取信息含量密集且具有一定结构的数据；通用搜索引擎大多是基于关键字的检索，对于支持语义信息的查询和索引擎智能化的要求难以实现。由此可见，通用爬虫想在爬行网页时，既保证网页的质量和数量

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

HttpClient和HtmlParser实现爬虫解析.docxVIP