Nutch搜索引擎相关修改和配置说明.doc

Nutch搜索引擎相关修改和配置说明.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Nutch搜索引擎相关修改和配置说明

Nutch搜索引擎相关修改和配置说明 (本说明基于nutch-1.0版本进行的修改和配置,文中所提“nutch目录”指nutch安装的目录,“webapps下的nutch目录”指tomcat的webapps下的nutch目录。由于本文档非边实践边编写,而且写的比较简略,所以可能有部分遗漏或者疏忽的地方没有写出,仅供参考!) 关于用户界面: 用户界面部分使用源码包nutch-1.0.war部署解压后的web工程对jsp页面进行了样式重构和优化,并进行了页面输出的调整以及原始页面中异常的处理。 (1)样式和布局:修改了index.jsp和search.jsp以及header.html、bottom.html、style.html以及中英文head文件和bottom文件。采用css+div对页面进行了重新布局和样式调整,若需要继续修改,请调整对应jsp的html和css样式。 (2)页面输出:页面的输出主要修改了search.jsp的部分jsp代码,注释掉了不必要的输出,例如评分详解等;修改了网页快照链接的bug,由于某些被检索的网页没能生成快照,导致空链接异常。加入了索引时间显示。 (3)页面编码:修正了原始页面乱码的问题。 关于附件搜索 Nutch自身已经集成好了各类附件的搜索功能,支持的附件格式参见nutch的plugins目录下的parse-*文件夹,凡是有以“parse-**”命名的文件夹,那么表示nutch支持“**”格式的文件的检索和解析,但是还需要修改nutch的配置文件以使nutch对对应格式的附件进行索引。具体修改方法:修改nutch目录下conf以及webapps下的nutch/web-inf/classes下的: # skip image and other suffixes we cant yet parse -.*\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|mpg|gz|rpm|tgz|mov|MOV|exe)在此行去掉需要被检索的附件的文件格式; 并在nutch-default.xml中修改: property nameplugin.includes/name valueprotocol-http|urlfilter-regex|parse-(text|html|js|msword|mspowerpoint|msexcel|pdf|swf|zip|rss)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|analysis-(zh)/value …… /property 以及nutch-site.xml和webapps下的nutch/web-inf/classes中的nutch-default.xml和nutch-site.xml中的对应属性。 需要注意的是,附件在网站中的页面深度一般比较大,所以对索引的深度要求较高,其次,附件文件比价大的话,对于爬虫的抓取资源的效率的影响是比较大的。 关于摘要长度 摘要长度的修改只需要修改nutch/conf下的nutch-default.xml和webapps下nutch/web-inf/classes中的nutch-default.xml文件: property namesearcher.summary.length/name value150/value description The total number of terms to display in a hit summary. /description /property 修改value的值就可以。 关于简繁体 基于目前集团网站均采用的是页面端进行的简繁体转换(通过js转换,nutch的爬虫只能抓取url请求默认返回的内容,故翻译出来的繁体无法被检索),同时又有部分内容(比如附件)中包含有繁体内容,nutch作为搜索引擎本身是支持能被索引的资源(包括简繁体)的索引,所以当前的解决方法是在搜索页面提供简繁互转操作,并提供繁体搜索功能。 简繁互转:实现按照简体关键字返回的结果页面内容的简体和繁体互转。满足对网站简体内容繁体查看的需求。(具体操作为页面上的转换为“切换到简体/切换到繁体”) 繁体搜索:提供对搜索的关键词繁体转换后的搜索。(返回索引中带有繁体的内容的结果) 关于中文分词 由于nutch本身支持中文搜索但是汉字的差分是单字拆分的原则,所以单字对于检索结果的排序以及返回的结果集都有很大的影响,比如关键词为“信息管理”,nutch的分

文档评论(0)

xy88118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档