nutch搜索引擎_第3期_nutch简单应用_v1.0.pdfVIP

下载本文档

11
0
约1.95万字
约 24页
2016-03-12 发布于山西
举报
版权申诉

nutch搜索引擎_第3期_nutch简单应用_v1.0.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

nutch搜索引擎_第3期_nutch简单应用_v1.0

细细品味Nutch ——Nutch 搜索引擎（第3 期）精华集锦 csAxp / 2012 年4 月9 日创建时间：2012/4/9 修改时间：2012/4/13 修改次数：0 目录 1、本期内容2 1.1 Nutch 命令详解2 1.2 Nutch 简单应用 15 2 、参考文献22 3、打赏小编23 中国·北京——虾皮工作室（）编辑：虾皮 1 创建时间：2012/4/9 修改时间：2012/4/13 修改次数：0 Nutch 搜索引擎（第3 期） ——Nutch 简单应用 1、本期内容 1.1 Nutch 命令详解 Nutch 采用了一种命令的方式进行工作，其命令可以是对局域网方式的单一命令也可以是对整个Web 进行爬取的分步命令。要看Nutch 的命令说明，可执行“Nutch ”命令。下面是单个命令的说明：  crawl crawl 是“org.apache.nutch.crawl.Crawl ”的别称，它是一个完整的爬取和索引过程命令。中国·北京——虾皮工作室（）编辑：虾皮 2 创建时间：2012/4/9 修改时间：2012/4/13 修改次数：0 使用方法： Shell 代码 bin/nutch crawl urlDir [-dir d] [-threads n] [-depth i] [-topN] 参数说明： urlDir ：包括URL 列表的文本文件，它是一个已存在的文件夹。 [-dir d] ：Nutch 保存爬取记录的工作目录，默认情况下值为：./crawl-[date]，其中[date] 为当前目期。 [-threads n] ：Fetcher 线程数，覆盖默认配置文件中的fetcher.threads.fetch 值（默认为 10）。 [-depth i]：Nutch 爬虫迭代的深度，默认值为5 。 [-topN num] ：限制每一次迭代中的前N 条记录，默认值为 Integer.MAX_VALUE 。配置文件： hadoop-default.xml hadoop-site.xml nutch-default.xml nutch-site.xml crawl-tool.xml 其他文件： crawl-urlfilter.txt  readdb readdb 命令是“org.apache.nutch.crawl.CrawlDbReader ”的别称，返回或者导出Crawl 数据库（crawldb ）中的信息。使用方法： Shell 代码 bin/nutch readdb crawldb (-stats | -dump out_dir | -url url) 参数说明： crawldb ：crawldb 目录 [-stats]：在控制台打印所有的统计信息中国·北京——虾皮工作室（）编辑：虾皮 3