HttpClient和HtmlParser实现爬虫解析.docxVIP

  • 12
  • 0
  • 约1.81万字
  • 约 26页
  • 2017-01-10 发布于湖北
  • 举报
HttpClient和HtmlParser实现爬虫解析

网络爬虫技术什么叫网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫的分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler) ;主题网络爬虫(Topical Web Crawler) ;深层网络爬虫(Deep Web Crawler)。实际应用中通常是将系统几种爬虫技术相互结合。通用网络爬虫通用网络爬虫根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断从URL队列中获一个的URL,进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容,将摘要、URL等信息保存到Web数据库中,同时抽取当前页面上新的URL,保存到URL队列,直到满足系统停止条件。其工作流程如图1所示。通用爬虫主要存在以下几方面的局限性:由于抓取目标是尽可能大的覆盖网络,所以爬行的结果中包含大量用户不需要的网页;不能很好地搜索和获取信息含量密集且具有一定结构的数据;通用搜索引擎大多是基于关键字的检索,对于支持语义信息的查询和索引擎智能化的要求难以实现。由此可见,通用爬虫想在爬行网页时,既保证网页的质量和数量

文档评论(0)

1亿VIP精品文档

相关文档