利用开源工具构建小型搜索引擎项目报告.doc

利用开源工具构建小型搜索引擎项目报告.doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用开源工具构建小型搜索引擎项目报告

深圳大学考试答题纸 (以论文、报告等形式考核专用) 二○ ~二○ 学年度第 学期 课程编号 1501320002 课程名称 搜索引擎技术 主讲教师 王旭 评分 学 号 姓名 专业年级 教师评语: 题目: 利用开源工具构建小型搜索引擎 项目操作环境及基本操作工具: 操作系统:Win10。 基本操作环境:基于Heritrix+ Lucene;java。 基本操作工具:JDK 1.8,MyEclipse Professional 2014,Tomcat 8.0.27,Heritrix 1.14.4,Lucene 2.1.0,? JE-analysis-1.5.3,?Htmlparser 1.5。 基本操作工具基本功能介绍: JDK 1.8:JDK(Java SE Development Kit)包括Java开发包和Java开发工具,是一个写Java 的applet和应用程序的程序开发环境。它由一个处于操作系统层之上的运行环境还有 开发者编译,调试和运行用Java语言写的applet和应用程序所需的工具组成。 MyEclipse Professional 2014:?Eclipse是一种可扩展的开放源代码IDE。2001年11月,IBM公 司捐出价值4,000万美元的源代码组建了Eclipse联盟,并由该联盟负责这种工具的后 续开发。集成开发环境(IDE)经常将其应用范围限定在“开发、构建和调试”的周期 之中。为了帮助集成开发环境(IDE)克服目前的局限性,业界厂商合作创建了Eclipse 平台。MyEclipse,是在eclipse?基础上加上自己的插件开发而成的功能强大的企业级集 成开发环境。 Tomcat 8.0.27:?Tomcat服务器是一个免费的开放源代码的Web 应用服务器,它是Apache 软件 基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、 Sun 和其他一些公司及个人共同开发而成。?Tomcat 8支持最新的Servlet 3.1 和JSP 2.3 规范。因为Tomcat技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并 得到了部分软件开发商的认可,成为目前比较流行的Web应用服务器。 Heritrix 1.14.4:Heritrix是一个开源、可扩展的Web爬虫项目。Heritrix设计成严格按照robots.txt 文件的排除指示和META robots标签。 Lucene 2.1.0:?Lucene是Apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的 全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的 架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方 语言)。 JE-analysis-1.5.3:是一个免费的Lucene中文分词组件。 Htmlparser 1.5:是一个纯的java写的html解析的库,Htmlparser不依赖于其它的java库, Htmlparser主要用于改造或提取html。 该搜索引擎系统的基本构架: 先通过爬虫爬取原始网页并进行网页搜集;然后进行网页预处理;接着建立索引indexs;最后 进行查询服务。 三、具体搭建和配置过程及问题分析: (1)基本工具的安装: a、JDK1.8的安装: 并配置环境变量: JAVA_HOME:C:\Program Files\Java\jdk1.8.0_66 JRE_HOME:C:\Program Files\Java\jre1.8.0_66 CLASSPATH:%JAVA_HOME%\jre\lib\rt.jar;.; PATH:%JAVA_HOME%\jre\lib\rt.jar;.; b、MyEclipse的安装:运行.exe文件 c、Tomcat的安装:解压安装; 设置环境变量:CATALINE_HOME:D:\big work\an zhuang\apache-tomcat-8.0.30; 设置好之后,测试一下Tomcat。打开Bin文件夹,运行startup.bat; 打开浏览器,输入http://localhost:8080(或者:8080),如果看到下图所示的界面, 表明Tomcat运行正常: d、其他工具解压即可。 Heritrix工程的建立: a、解压Heritrix-1.14.4和Heritrix-1.14.4-src文件

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档