搜索引擎与信息检索教程袁津生部分源代码ch09课件教学.pptVIP

下载本文档

2
0
约2.91千字
约 67页
2017-03-06 发布于广东
举报

搜索引擎与信息检索教程袁津生部分源代码ch09课件教学.ppt

搜索引擎与信息检索教程袁津生amp;部分源代码ch09课件教学.ppt

9.1 实例简介搜索引擎的体系结构网页搜集作为网页搜集的重要组成部分——爬虫（也叫“蜘蛛”或“蜘蛛程序”），本实例采用了开源软件Heritrix。选择Heritrix的原因有两点：（1）Heritrix是由Java语言编写，而本实例的其他部分也都采用了Java语言编写，因此采用Heritrix方便功能的实现。（2）Heritrix是一款开源的爬虫，并且扩展性很好，可以方便的修改源代码以适应我们的需求。网页预处理索引建立流程查询服务 9.2 搜索引擎的实现常用工具介绍常用工具介绍及下载地址如下：（1）JDK 1.6 下载地址为：/。JDK（Java Development Kit）包括Java开发包和Java开发工具，是一个写Java的applet和应用程序的程序开发环境。它由一个处于操作系统层之上的运行环境还有开发者编译，调试和运行用Java语言写的applet和应用程序所需的工具组成。常用工具介绍（2）Eclipse 3.3 with J2EE 下载地址为：/。Eclipse是一种可扩展的开放源代码IDE。2001年11月，IBM公司捐出价值4,000万美元的源代码组建了Eclipse联盟，并由该联盟负责这种工具的后续开发。集成开发环境（IDE）经常将其应用范围限定在“开发、构建和调试”的周期之中。为了帮助集成开发环境（IDE）克服目前的局限性，业界厂商合作创建了Eclipse平台。 Eclipse允许在同一IDE中集成来自不同供应商的工具，并实现了工具之间的互操作性，从而显著改变了项目工作流程，使开发者可以专注在实际的嵌入式目标上。常用工具介绍（3）Tomcat 6.0.14 下载地址为：/。Tomcat服务器是一个免费的开放源代码的Web 应用服务器，它是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。 Tomcat 5支持最新的Servlet 2.4 和JSP 2.0 规范。因为Tomcat技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web应用服务器。常用工具介绍（4）Heritrix 1.10.1 下载地址为：/。Heritrix是一个开源、可扩展的Web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。（5）Lucene 2.0 下载地址为：/。Lucene是Apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。常用工具介绍（6）JE-analysis-1.5.1 下载地址为：/。是一个免费的Lucene中文分词组件。（7）Htmlparser 下载地址为：/projects/htmlparser/。Htmlparser是一个纯的java写的html解析的库，Htmlparser不依赖于其它的java库，Htmlparser主要用于改造或提取html。 JDK1.6的安装设置环境变量 Eclipse的安装 Tomcat的安装 Tomcat的设置设置Tomcat的环境变量，添加方法同jdk的添加方法。设置TOMCAT_HOME=c:/Program Files/apache-tomcat-5.5.23。设置好之后，测试一下Tomcat。打开Bin文件夹，运行startup.bat。打开浏览器，输入http://localhost:8080（或者:8080），如果看到下图所示的界面，表明Tomcat运行正常。 Tomcat的运行 Heritrix的安装与配置新建项目工程Heritrix 创建好的Heritrix目录结构 Heritrix的登录界面 Heritrix控制台界面 Heritrix中设置Seeds 设置各个处理模块 Heritrix运行界面 9.3 网页搜集的实现扩展Heritrix 新建一个类，叫FrontierSchedulerForBjfu，派生于org.archive.crawler.postprocessor.FrontierScheduler。屏蔽zip、rar、exe、pdf、doc和xls的文件，只抓取网页，并且抓取的网页中必须包含bjfu。取消robots.txt的限制。抓取网页新建一个job，名字就叫做mysearch，Seeds设置为。进入Modules设置后，请注意，Post

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

搜索引擎与信息检索教程袁津生部分源代码ch09课件教学.pptVIP