基于lucene的web工程课件展示.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业论文,单片机论文,毕业论文设计,毕业过关论文,毕业设计,毕业设计说明,硕士论文,研究生论文,毕业论文,单片机论文,毕业论文设计,毕业过关论文,毕业设计,毕业设计说明,硕士论文,研究生论文,本文档支持完整下载,支持任意编辑!选择我们,选择成功!

基于lucene的搜索引擎 2007/07/01 引言 本文用lucene和Heritrix构建了一个Web 搜索应用程序 Lucene 是基于 Java 的全文信息检索包,它目前是 Apache Jakarta 家族下面的一个开源项目。 Lucene很强大,但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。 Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。它来自于。Heritrix最出色之处在于它的可扩展性,开发者可以扩展它的各个组件,来实现自己的抓取逻辑。 系统架构 开发环境 我们开发一个 Web 应用程序利用 Lucene 来检索存放在文件服务器上的 HTML 文档。在开始之前,需要准备如下环境: Heritrix 1.10.0 Eclipse 集成开发环境 (Eclipse 3.3+WTP 2.0) Tomcat 6.0 Lucene Library (lucene 2.0+luceneHtmlPaser) JDK 1.6 这个工程使用 Eclipse 进行 Web 应用程序的开发,最终这个 Web 应用程序跑在 Tomcat 6.0 上面。在准备好开发所必需的环境之后,我们接下来进行 Web 应用程序的开发。 在Eclipse里配置Heritrix的开发环境 Heritrix在Eclipse中的工程配置好后的截图,以及workspace中文件夹的预览 创建一个新的抓取任务 在Eclipse下运行org.archive.crawler.Heritrix类 ,看到了Heritrix成功运行后的WebUI,创建一个新的抓取作务。 1)单击WebUI菜单栏上的“Jobs”标签,就可以进入任务创建页面。 2) 设置抓取时的处理链 需要配置的内容共有7项,其中CrawlScope和Frontier是两个最重要的组件。CrawlScope用于配置当前应该在什么范围内抓取网页链接。比如,如果选择BroadScope,则表示当前抓取的范围不受限制,但如果选择了HostScope,则表示抓取的范围在当前的Host内。 3) 设置运行时的参数 在设置完处理链后,单击“Settings”链接,就进入了属性设置的页面 1.max-toe-threads 该参数的含义很容易了解,它表示Heritrix在运行该抓取任务时,为任务分配多少个线程进行同步抓取。该参数的默认值为100,而事实上根据笔者的经验,在机器配置和网络均很好的情况下,设置50个线程数就已经足够使用了。 2.HTTP-Header 在HTTP-Header这个属性域下面,包括两个属性值“user-agent”和“from”。这两个属性的值如图所示。 图 5 运行抓取任务 当单击“Submit job”链接后,会看到下图所示的页面。图中最上方很清楚的显示了“Job created”,这表示刚才所设置的抓取任务已经被成功的建立。同时,在下面的“Pending Jobs”一栏,可以清楚的看到刚刚被创建的Job,它的状态目前为“Pending”。 回到“Console”界面上,单击面版中的“Start”链接,就会将此时处于“Pending”状态的抓取任务激活,令其开始抓取 。 刚才还处于“Start”状态的链接已经变为了Hold状态。这表明,抓取任务已经被激活。 Heritrix的镜象存储结构 打开Eclipse的workspace目录,进入heritrixProject的工程,里面有一个jobs目录。进入后,找到以刚才job的名称打头的文件夹,这里面的内容,就是Heritrix在运行时实时生成的。其中,有一个mirror目录,进入后,如下图所示: 其实所谓镜象方式存储,就是将URL地址按“/”进行切分,进而按切分出来的层次存储,比如一个URL地址为: /index.html 那么它在mirror目录中的保存位置就该是目录下的index.html文件。 基于 Lucene 的Web 应用程序 1、创建一个动态 Web 项目 1.在 Eclipse 里面,选择 File New Project,然后再弹出的窗口中选择动态 Web 项目, 2.在创建好动态 Web 项目之后,你会看到创建好的项目的结构,如下图所示,项目的名称为 sample.dw.paper

文档评论(0)

云烟 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年03月21日上传了教师资格证

1亿VIP精品文档

相关文档