基于lucene的web工程课件展示.ppt

下载文档 降价啦

1
0
约4.76千字
约 29页
2015-08-31 发布于河南
举报
版权申诉
保障服务

基于lucene的web工程课件展示.ppt

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

毕业论文,单片机论文,毕业论文设计,毕业过关论文,毕业设计,毕业设计说明,硕士论文,研究生论文,毕业论文,单片机论文,毕业论文设计,毕业过关论文,毕业设计,毕业设计说明,硕士论文,研究生论文,本文档支持完整下载,支持任意编辑!选择我们，选择成功！

基于lucene的搜索引擎 2007/07/01 引言本文用lucene和Heritrix构建了一个Web 搜索应用程序 Lucene 是基于 Java 的全文信息检索包，它目前是 Apache Jakarta 家族下面的一个开源项目。 Lucene很强大，但是，无论多么强大的搜索引擎工具，在其后台，都需要一样东西来支援它，那就是网络爬虫Spider。网络爬虫，又被称为蜘蛛Spider，或是网络机器人、BOT等，这些都无关紧要，最重要的是要认识到，由于爬虫的存在，才使得搜索引擎有了丰富的资源。 Heritrix是一个纯由Java开发的、开源的Web网络爬虫，用户可以使用它从网络上抓取想要的资源。它来自于。Heritrix最出色之处在于它的可扩展性，开发者可以扩展它的各个组件，来实现自己的抓取逻辑。系统架构开发环境我们开发一个 Web 应用程序利用 Lucene 来检索存放在文件服务器上的 HTML 文档。在开始之前，需要准备如下环境： Heritrix 1.10.0 Eclipse 集成开发环境（Eclipse 3.3+WTP 2.0) Tomcat 6.0 Lucene Library (lucene 2.0+luceneHtmlPaser) JDK 1.6 这个工程使用 Eclipse 进行 Web 应用程序的开发，最终这个 Web 应用程序跑在 Tomcat 6.0 上面。在准备好开发所必需的环境之后，我们接下来进行 Web 应用程序的开发。在Eclipse里配置Heritrix的开发环境 Heritrix在Eclipse中的工程配置好后的截图，以及workspace中文件夹的预览创建一个新的抓取任务在Eclipse下运行org.archive.crawler.Heritrix类 ,看到了Heritrix成功运行后的WebUI,创建一个新的抓取作务。 1）单击WebUI菜单栏上的“Jobs”标签，就可以进入任务创建页面。 2) 设置抓取时的处理链需要配置的内容共有7项，其中CrawlScope和Frontier是两个最重要的组件。CrawlScope用于配置当前应该在什么范围内抓取网页链接。比如，如果选择BroadScope，则表示当前抓取的范围不受限制，但如果选择了HostScope，则表示抓取的范围在当前的Host内。 3) 设置运行时的参数在设置完处理链后，单击“Settings”链接，就进入了属性设置的页面 1．max-toe-threads 该参数的含义很容易了解，它表示Heritrix在运行该抓取任务时，为任务分配多少个线程进行同步抓取。该参数的默认值为100，而事实上根据笔者的经验，在机器配置和网络均很好的情况下，设置50个线程数就已经足够使用了。 2．HTTP-Header 在HTTP-Header这个属性域下面，包括两个属性值“user-agent”和“from”。这两个属性的值如图所示。图 5 运行抓取任务当单击“Submit job”链接后，会看到下图所示的页面。图中最上方很清楚的显示了“Job created”，这表示刚才所设置的抓取任务已经被成功的建立。同时，在下面的“Pending Jobs”一栏，可以清楚的看到刚刚被创建的Job，它的状态目前为“Pending”。回到“Console”界面上，单击面版中的“Start”链接，就会将此时处于“Pending”状态的抓取任务激活，令其开始抓取。刚才还处于“Start”状态的链接已经变为了Hold状态。这表明，抓取任务已经被激活。 Heritrix的镜象存储结构打开Eclipse的workspace目录，进入heritrixProject的工程，里面有一个jobs目录。进入后，找到以刚才job的名称打头的文件夹，这里面的内容，就是Heritrix在运行时实时生成的。其中，有一个mirror目录，进入后，如下图所示：其实所谓镜象方式存储，就是将URL地址按“/”进行切分，进而按切分出来的层次存储，比如一个URL地址为： /index.html 那么它在mirror目录中的保存位置就该是目录下的index.html文件。基于 Lucene 的Web 应用程序 1、创建一个动态 Web 项目 1.在 Eclipse 里面，选择 File New Project，然后再弹出的窗口中选择动态 Web 项目， 2.在创建好动态 Web 项目之后，你会看到创建好的项目的结构，如下图所示，项目的名称为 sample.dw.paper

您可能关注的文档

文档评论（0）

云烟 + 关注: 实名认证

内容提供者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年03月21日上传了教师资格证

1亿VIP精品文档

更多 >

基于lucene的web工程课件展示.ppt