搜索相关笔记(nutch).docVIP

下载本文档

9
0
约1.33万字
约 13页
2017-08-12 发布于河南
举报
版权申诉

搜索相关笔记(nutch).doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索相关笔记 quqi99@163.com 1 Nutch(windows环境下) Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了骨干代码，另有很多地方作了合理化修正，非常值得升级。 /dev2dev/archive/2006/02/01/29415.aspx Nutch在Windows中安装之细解由于运行Nutch自带的脚本命令需要Linux的环境，所以必须首先安装Cygwin来模拟这种环境nutch-0.9.tar.gz, 用winrar解压后，例如放在g:/nutch-0.9 3) 安装nutch，打开cgwin，运行命令： cd /cygdrive/g/nutch-0.9 (也就是进入nutch解压的目录) bin/nutch (执行nutch脚本安装) 4) OK ! 1.2 Nutch使用入门资料：/zjzcl/archive/2006/02/06/593138.aspx Nutch 使用之锋芒初试unsupported major.minor version 49.0 n 设置环境变量：NUTCH_JAVA_HOME = c:/jdk1.5 1.2.1 抓取少量网站 1) 在nutch的安装目录新建一个文件url.txt，指明要抓取网站的顶级网址，写入： 2) 编辑conf/crawl-urlfilter.txt，修改MY.DOMAIN.NAME部分# accept hosts in MY.DOMAIN.NAME #+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ +^ 改配置文件还能设置更多相关信息，比如如下，设定那些文件不被抓取 # skip image and other suffixes we cant yet parse -\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP|rar|RAR|js|JS)$ 修改D:\nutch-0.9\conf\nutch-site.xml,具体为什么加这个我也说不清楚,但尝试了几次，如果不加就会抓不到数据。 configuration property ? ?? name/name ? ?? value*/value /property /configuration 3) 运行脚本命令抓取，脚本命令全是linux下的shell命令，在window下运行它需要cgwin，打开cgwin，运行命令: cd /cygdrive/g/nutch-0.9 (也就是进入nutch解压的目录) bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 crawl.log 参数解释：（不加日志，日志就写到控制台上） -dir dir names the directory to put the crawl in. -depth depth indicates the link depth from the root page that should be crawled. -delay delay determines the number of seconds between accesses to each host. -threads threads determines the number of threads that will fetch in parallel. 生成的目录： crawdb,linkdb 是web link目录，存放url 及url的互联关系，作为爬行与重新爬行的依据，页面默认30天过期。 segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录，是indexs里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。 /archives/000247.html 试用nutch 1、概念解释： 1）