- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验报告
课程名称现代信息检索
实验项目
专业班级
姓名学号
成绩
年 月 日
一、 实验目的(介绍本次实验的预期目标,完成的功能)
预期目标:通过搭建开源项目Nutch,从互联网上抓取数据,为这些抓取的网页数据建立一个索引。通过lucene把抓取的数据根据开源的分词器(庖丁分词)分词,并建立索引,在分词的时候可自定义分词的字典文本。
完成功能:由于在window上搭建,因此安装了Cygwin,用来模拟linux的环境,然后用nutch命令将需要抓取的网页数据抓取到本地并建立索引,最终能通过页面输入关键字查出相关的网页内容。
二、 实验过程(介绍实验中涉及的关键过程,如核心算法、数 据结构等)
1.实验用到软件
JDK :jdk1.6.0_20
Nutch: apache-nutch-1.1
Tomcat: apache-tomcat-6.0
Lucene: Lucene3.0
Solor: Solor 1.4
2.由于在window上搭建,因此安装了Cygwin,用来模拟linux的环境。
步骤
.双击Cygwin 出现如下界面
点击“下一步”后,安装向导要求选择Cygwin的安装方式,如图2所示:
图示中共有三种安装方式: (1)Install from Internet:从Internet上下载并安装软件; (2)Download Without Installing:从Internet上下载安装的文件,但暂时不安装; (3)Install from Local Directory:从本地含有安装文件的目录进行安装。 我们选择第三项“Install from Local Directory”后,点击“下一步”,如图3所示:
安装向导要求选择Cygwin的安装路径,我们可以在“Root Directory”文本框中更改安装路径,点击“下一步”,如图4所示:
安装向导要求选择Cygwin安装文件所在的本地存储路径,可以在“Local Package Directory”中设置,点击“下一步”,如图5所示:
安装向导显示出所要安装的内容列表,用户可以根据自己的实际需要来决定安装哪些程序。点击循环箭
头图标后面的文字,可以更改安装的方式,常用的方式有Default(表示只安装缺省的
安装项)、Install(表示安装全部程序,空间要求较大)、Reinstall(表示重新安装程序)。
推荐选择“Install”方式,一步到位,以免后扰,不过用户应保证至少有2G以上的空
间可供使用。点击“下一步”后,就开始正式的安装了(如图6所示)。
最后出现如图7所示的窗口,点击“完成”后,Cygwin安装完毕。
至此,Cygwin就安装完毕了。
3.安装Nutch
去网站上下载到Nutch的最新版本,将其解压到指定目录中,本次实验下载的是apache-nutch-1.1-bin
4.测试Nutch命令
在运行Nutch的脚本命令前,需要设置一些环境变量。Cygwin提供了一个名为cygwin.bat的文件,通过它可以自动完成必需环境变量的设置。该文件可在cygwin所在的根目录下找到,感兴趣的读者还可通过UltraEdit等编辑器打开该文件一查究竟。其实Cygwin安装完成之后,会在Windows系统桌面生成一图标,如图8所示: 此图标就是cygwin根目录下cygwin.bat文件的快捷方式,双击此图标将打开一类似DOS窗口。本实验将nutch解压到了E:\cygwin\usr\local中,故在此命令窗口中输入命令“cd /usr/local/apache-nutch-1.1-bin”,读者可根据自己的安装路径进行相应的修改,然后使用命令“ls -l”可查看nutch-0.7.1中的所有子目录及文件信息。执行命令“bin/nutch”,如果读者能看到如图9所示的提示, Nutch在Windows系统中的安装已经大功告成了!
5.配置nutch的网络抓取
在/usr/local/apache-nutch-1.1-bin的目录下建立一个urls的文件,写入需要抓取网页的网站地址,如 HYPERLINK , ,之类的网站地址,一行只能写一个网站地址
然后通过doc命令进入/usr/local/apache-nutch-1.1-bin下面 然后执行./bin/nutch crawl urls -dir crawl.demo -depth 2 -threads 4 -topN 50 crawl.log 命令
此命令说明nutch从网上抓取数据,并用nutch自带的lucene建立索引放在crawl.demo的目录下面如图所示
图上所显示的就是网站索引。在用lucene建立索引的时候,其实是调用的solor
文档评论(0)