- 12
- 0
- 约1.81万字
- 约 26页
- 2017-01-10 发布于湖北
- 举报
HttpClient和HtmlParser实现爬虫解析
网络爬虫技术什么叫网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫的分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler) ;主题网络爬虫(Topical Web Crawler) ;深层网络爬虫(Deep Web Crawler)。实际应用中通常是将系统几种爬虫技术相互结合。通用网络爬虫通用网络爬虫根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断从URL队列中获一个的URL,进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容,将摘要、URL等信息保存到Web数据库中,同时抽取当前页面上新的URL,保存到URL队列,直到满足系统停止条件。其工作流程如图1所示。通用爬虫主要存在以下几方面的局限性:由于抓取目标是尽可能大的覆盖网络,所以爬行的结果中包含大量用户不需要的网页;不能很好地搜索和获取信息含量密集且具有一定结构的数据;通用搜索引擎大多是基于关键字的检索,对于支持语义信息的查询和索引擎智能化的要求难以实现。由此可见,通用爬虫想在爬行网页时,既保证网页的质量和数量
您可能关注的文档
最近下载
- 矿区生态修复方案编制指南(临时).docx VIP
- 2024事业单位工勤技能考试考前冲刺试卷及参考答案详解(新).docx
- 原调bD海底珍珠容易搵联考钢琴伴奏正谱.pdf VIP
- 江西省南昌市2026届高三年级三月测试(一模)物理试题(含答案).pdf VIP
- 2026年春统编版语文四年级教学进度表.docx VIP
- 养老护理员培训PPT演示课件.ppt VIP
- (高中物理)《传感器》知识梳理.pdf
- (整理版)浙江省宁波市支点教育培训学校八年级数学上册《21等腰三角形》.pdf
- (整理版)浙江省绍兴县杨汛桥镇中学九年级数学上册练习8(无答案)浙教.pdf
- (整理版)特殊四边形的综合应用.pdf
原创力文档

文档评论(0)