搭建自己的搜索引擎.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
今天我就在这里借光年论坛在这里献丑下,写篇几篇关于自己搭建搜索引擎的文章。所采用的是开源搜索 引擎 nutch,考虑到大部份 SEOER 所以主要是在 WINDOWS 平台进行搭建。1,Nutch 简介 Nutch 是一个刚 刚诞生开放源代码(open-source) web 搜索引擎.  尽管 Web 搜索是漫游 Internet 的基本要求, 但是现有 web 搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有 web 搜索为其 谋取商业利益.这显然不利于广大 Internet 用户.  Nutch 为我们提供了这样一个不同的选择. 相对于那些 商用的搜索引擎, Nutch 作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜 索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索 引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth 没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch 将尽自己最大的努力为用户提供最好的搜索结果.  Nutch 致力于 让每个人能很容易, 同时花费很少就可以配置世界一流 Web 搜索引擎. 为了完成这一宏伟的目标, Nutch 必须能够做到:   每个月取几十亿网页   为这些网页维护一个索引   对索引文件进行每秒上千次的搜索   提供高质量的搜索结果   以最小的成本运作 2,安装 2.1 安装准备所需软件:(如果以下网址不能下载,请自行搜索) JDK1.6 下载地址:/zh_CN/ Tomcat 7.0.x 下载 址://tomcat/tomcat-7/v7.0.4-beta/bin/apache-tomcat-7.0.4.exe Cygwin 下载地址:/setup.exe Nutch 1.0 下载地址:/apache//nutch/nutch-1.0.tar.gz 2.2 安装:2.2.1 JDK 安装 (我这里用的是默认的安装) 接下来可以按默认的安装 2.2.2 添加 JDK 环境变量: 右击我的电脑——属性——高级——环境变量-系统变量 Path 添加 C:\Program Files\Java\jdk1.6.0_22\bin; JAVA_HOME=C:\Program Files\Java\jdk1.6.0_22 (JDK 安装的目录) classpath= .;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar; 添加好环境变量后、我们可以输入 JAVAC 来看是否安装成功如:看到下面图所示的内容那么就安装成功了 搭建自己的搜索引擎(1) 搭建自己的搜索引擎(2) 搭建自己的搜索引擎(3) 搭建自己的搜索引擎(4) 这下面的图片是没用的,不知怎么出来 +++++++++++++++++++++++++++++++++++++ image007.png (17.85 KB, 下载次数: 0) image043.gif (2.48 KB, 下载次数: 0) image044.gif (13.55 KB, 下载次数: 0) image046.gif (12.94 KB, 下载次数: 0) image050.gif (5.77 KB, 下载次数: 0) image051.gif (22.55 KB, 下载次数: 0) 2.2.3 安装 Tomcat 7.0(除了选择安装目录外,别的我都选择了默认的安装) 2.2.4 安装 Cygwin (因为 NUTCH 的自带命令必需要在 LINUX 的环境,所以必需要安装 Cygwin 来 模拟这种环境) 点击下一步 进入安装方式的选择界面 上图所示 Cygwin 有三种安装方式 1,Install from Internet:直接从 Internet 上下载并立即安装(安装完成后,下载好的安装文件并不会被删 除,而是仍然被保留,以便下次再安装)。 2,Download Without Installing:只是将安装文件下载到本地,但暂时不安装。 3,Install from Local Directory:不下载安装文件,直接从本地某个含有安装文件的目录进行安装。 如果你的网

文档评论(0)

LF20190802 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档