网络爬虫应用介绍详解.pptxVIP

  • 12
  • 0
  • 约1.11千字
  • 约 19页
  • 2017-07-05 发布于湖北
  • 举报
网络爬虫 应用介绍;序言; 挑战 能监控知名博客、BBS、论坛上别人对我的评论吗? 百度、Google搜索结果翻了十几页,怎么这么多跟我不相关的结果出来? 应对思路 从网页采集层面来讲,要保障信息来源的相关性和精准度。以互联网主流领域资源网站为网页主要采集来源;配合成熟的博客论坛垂直搜索引擎(如奇虎、大旗)建立本地的WEB资源库;对于指定投诉网站的评论信息作精确定向采集。 从网页分析层面来讲,不仅应提取网页标题、正文,更按需提供时间、来源、作者及特定内容的提取。 从索引和搜索层面来讲,进行全文索引,可支持全文检索和精确检索,并按需提供多种结果排序方式。 ;;;效果演示—后台配置;系统架构图;系统架构 配置采集策略:爬虫管理员可自定义抓取目标网站、定义抓取频率、定义默认关键字。 自定义关键字:不同用户可根据喜好约定个人使用的关键字,搜索结果由搜索模块返回显示。 输入查询条件: 前台提供用户界面使用户可以向Web 应用程序服务器提交搜索请求,然后搜索结果通过用户接口来显示出来。 ;系统架构 网页采集模块:负责定时将指定WEB网页抓到服务器。使用开源的Heritrix实现。 网页分析模块:负责解析提取出网页的主要数据,包括标题、节选、发布时间、链接地址等.使用htmlparser实现。 索引模块:为HTML页面来创建索引。使用Lucene 的API 实现。 搜索模块:是系统与用户交互的模块,系统根据用户输入的查询语句,负责在数据库和索引文件上搜索出相应数据并按照一定的排序反馈给用户。使用Lucene 提供的API 来实现。 ;应用效果;应用效果;应用效果;应用效果;应用效果;开发环境 Heritrix 1.14 HtmlPaser 1.6 Lucene Library (lucene 2.0) Eclipse 集成开发环境(Eclipse 3.3+WTP 2.0) ;Heritrix 目前有很多开源的网络蜘蛛系统,比较著名的有: 本项目选择Hertitrix,将抓取来的网页按镜像方式存储,即将就是将目标URL地址按“/”进行切分,进而按切分出来的层次存储。 ;HtmlParser 目前最有知名度的解析html页面的开源库: 根据本项目特点选择HtmlParser来做页面解析。 ;Lucene Lucene的国际客户有Twitter、IBM;国内客户有凤凰网、豆丁网等等。 常用分词器:如ictcals,JE,paoding,CJK等,是影响检索最终表现的关键因素。本项目选择Lucene的API:CJK。因为它具有词库丰富、可自定义分词粒度等特点。 ;

文档评论(0)

1亿VIP精品文档

相关文档