应用已有开源搜索引擎.docVIP

下载本文档

0
0
约4.86千字
约 11页
2018-09-07 发布于福建
举报
版权申诉

应用已有开源搜索引擎.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

应用已有开源搜索引擎

应用已有开源搜索引擎　　Nutch作为一款刚刚诞生的开源Web搜索引擎，提供了除商业搜索引擎外的一种新的选择。个人、企业都可通过Nutch来构建适合于自身需要的搜索引擎平台，提供适合于自身的搜索服务，而不必完全被动接收商业搜索引擎的各种约束。　　Nutch的工作流程可以分为两个大的部分：抓取部分与搜索部分。抓取程序抓取页面并把抓取回来的数据进行反向索引，搜索程序则对反向索引进行搜索回答用户的请求，索引是联系这两者的纽带。图1是对Nutch整个工作流程的描述。　　　　首先需要建立一个空的URL数据库，并且把起始根urls添加到URL数据库中（步骤1），依据URL数据库在新创建的segment中生成fetchlist，存放了待爬行的URLs（步骤2），根据fetchlist从Internet进行相关网页内容的爬行抓取与下载（步骤3），随后把这些抓取到的内容解析成文本与数据（步骤4），从中提取出新的网页链接URL，并对URL数据库进行更新（步骤5），重复步骤2-5直到达到被指定的爬行抓取深度。以上过程构成了Nutch的整个抓取过程，可以用一个循环来对其进行描述：生成→抓取→更新→循环。　　当抓取过程完成后，对抓取到的网页进行反向索引，对重复的内容与URL进行剔除，然后对多个索引进行合并，为搜索建立统一的索引库，而后用户可通过由Tomcat容器提供的Nutch用户界面提交搜索请求，然后由Lucene对索引库进行查询，并返回搜索结果给用户，完成整个搜索过程。　　Nutch程序采用Java语言编写，其运行环境需要一个Tomcat容器。本文运行环境以最新的j2sdk1.4.2_12及jakarta-tomcat-5.0.28为例。　　　　使用Nutch进行数据抓取　　　　Nutch通过运行网络爬虫工具进行网络内容的抓取，它提供了爬行企业内部网与爬行整个互联网这两种方式。　　　　● 爬行企业内部网　　爬行企业内部网（Intranet Crawling）这种方式适合于针对一小撮Web服务器，并且网页数在百万以内的情况。它使用crawl命令进行网络爬行抓取。在进行爬行前，需要对Nutch进行一系列的配置，过程如下：　　首先，需要创建一个目录，并且在此目录中创建包含起始根URLs的文件。我们以爬行搜狐网站（）为例进行讲述。　　#cd /usr/local/nutch 　　#mkdir urls 　　#touch urls/sohu 　　因此文件urls/sohu的内容为：/。依据爬行网站的实际情况，可继续在此文件末尾添加其他URL或者在URL目录里添加其他包含URL的文件。需要注意的是，在Nutch0.7的版中不需要创建目录，直接创建包含起始根URL的文件即可。　　接下来，要编辑conf/crawl-urlfilter.txt文件，将文中MY.DOMAIN.NAME部分替换为准备爬行的域名，并去掉前面的注释。因此在本文中进行域名替换后的形式为：　　+^http://([a-z0-9]*\.)*/ 　　文件conf/crawl-urlfilter.txt主要用于限定爬行的URL形式，其中URL的形式使用正则表达式进行描述。　　然后，编辑文件conf/nutch-site.xml，并且必须包含以下内容：　　　　　　　　　　　　　　　　　　　　除外，在间一般还包括http.agent.description、http.agent.url、http.agent.email这三个选项。　　最后，开始爬行抓取。完成对Nutch的配置后，运行crawal命令进行爬行。在本文中爬行脚本为：　　#bin/nutch crawl urls -dir sohu -depth 5 -topN 1000 　　其中命令行中各参数项含义分别为：dir指定爬行结果的存放目录，此处dir为sohu;depth指定从根URL起将要爬行的深度，此例depth设定为5;N设定每一层爬行靠前的N个URL，此例N值设定为1000。另外，crawl还有一个参数项:threads，它设定并行爬行的进程数。在爬行过程中，可通过Nutch日志文件查看爬行的进展状态，爬行完成后结果存放在sohu目录里。　　　　● 爬行整个互联网　　爬行整个互联网（Whole-web crawling）是一种大规模网络爬行，与第一种爬行方式相对，具有更强的控制性，使用inject、generate、fetch、updatedb等比较低层次的命令，爬行量大，可能需要数台机器数周才能完成。　　首先，需要下载一个包含海量URL的文件。下载完成后，将其拷贝到Nutch主目录，并且