搜索引擎与信息检索教程袁津生部分源代码ch09课件教学.pptVIP

  • 2
  • 0
  • 约2.91千字
  • 约 67页
  • 2017-03-06 发布于广东
  • 举报

搜索引擎与信息检索教程袁津生部分源代码ch09课件教学.ppt

搜索引擎与信息检索教程袁津生amp;部分源代码ch09课件教学.ppt

9.1 实例简介 搜索引擎的体系结构 网页搜集 作为网页搜集的重要组成部分——爬虫(也叫“蜘蛛”或“蜘蛛程序”),本实例采用了开源软件Heritrix。选择Heritrix的原因有两点: (1)Heritrix是由Java语言编写,而本实例的其他部分也都采用了Java语言编写,因此采用Heritrix方便功能的实现。 (2)Heritrix是一款开源的爬虫,并且扩展性很好,可以方便的修改源代码以适应我们的需求。 网页预处理 索引建立流程 查询服务 9.2 搜索引擎的实现 常用工具介绍 常用工具介绍及下载地址如下: (1)JDK 1.6 下载地址为:/。JDK(Java Development Kit)包括Java开发包和Java开发工具,是一个写Java的applet和应用程序的程序开发环境。它由一个处于操作系统层之上的运行环境还有开发者编译,调试和运行用Java语言写的applet和应用程序所需的工具组成。 常用工具介绍 (2)Eclipse 3.3 with J2EE 下载地址为:/。Eclipse是一种可扩展的开放源代码IDE。2001年11月,IBM公司捐出价值4,000万美元的源代码组建了Eclipse联盟,并由该联盟负责这种工具的后续开发。集成开发环境(IDE)经常将其应用范围限定在“开发、构建和调试”的周期之中。为了帮助集成开发环境(IDE)克服目前的局限性,业界厂商合作创建了Eclipse平台。 Eclipse允许在同一IDE中集成来自不同供应商的工具,并实现了工具之间的互操作性,从而显著改变了项目工作流程,使开发者可以专注在实际的嵌入式目标上。 常用工具介绍 (3)Tomcat 6.0.14 下载地址为:/。Tomcat服务器是一个免费的开放源代码的Web 应用服务器,它是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。 Tomcat 5支持最新的Servlet 2.4 和JSP 2.0 规范。因为Tomcat技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web应用服务器。 常用工具介绍 (4)Heritrix 1.10.1 下载地址为:/。Heritrix是一个开源、可扩展的Web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 (5)Lucene 2.0 下载地址为:/。Lucene是Apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。 常用工具介绍 (6)JE-analysis-1.5.1 下载地址为:/。是一个免费的Lucene中文分词组件。 (7)Htmlparser 下载地址为:/projects/htmlparser/。Htmlparser是一个纯的java写的html解析的库,Htmlparser不依赖于其它的java库,Htmlparser主要用于改造或提取html。 JDK1.6的安装 设置环境变量 Eclipse的安装 Tomcat的安装 Tomcat的设置 设置Tomcat的环境变量,添加方法同jdk的添加方法。设置TOMCAT_HOME=c:/Program Files/apache-tomcat-5.5.23。设置好之后,测试一下Tomcat。打开Bin文件夹,运行startup.bat。 打开浏览器,输入http://localhost:8080(或者:8080),如果看到下图所示的界面,表明Tomcat运行正常。 Tomcat的运行 Heritrix的安装与配置 新建项目工程Heritrix 创建好的Heritrix目录结构 Heritrix的登录界面 Heritrix控制台界面 Heritrix中设置Seeds 设置各个处理模块 Heritrix运行界面 9.3 网页搜集的实现 扩展Heritrix 新建一个类,叫FrontierSchedulerForBjfu,派生于org.archive.crawler.postprocessor.FrontierScheduler。 屏蔽zip、rar、exe、pdf、doc和xls的文件,只抓取网页,并且抓取的网页中必须包含bjfu。 取消robots.txt的限制。 抓取网页 新建一个job,名字就叫做mysearch,Seeds设置为。进入Modules设置后,请注意,Post

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档