- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Nutch搜索引擎相关修改和配置说明
Nutch搜索引擎相关修改和配置说明
(本说明基于nutch-1.0版本进行的修改和配置,文中所提“nutch目录”指nutch安装的目录,“webapps下的nutch目录”指tomcat的webapps下的nutch目录。由于本文档非边实践边编写,而且写的比较简略,所以可能有部分遗漏或者疏忽的地方没有写出,仅供参考!)
关于用户界面:
用户界面部分使用源码包nutch-1.0.war部署解压后的web工程对jsp页面进行了样式重构和优化,并进行了页面输出的调整以及原始页面中异常的处理。
(1)样式和布局:修改了index.jsp和search.jsp以及header.html、bottom.html、style.html以及中英文head文件和bottom文件。采用css+div对页面进行了重新布局和样式调整,若需要继续修改,请调整对应jsp的html和css样式。
(2)页面输出:页面的输出主要修改了search.jsp的部分jsp代码,注释掉了不必要的输出,例如评分详解等;修改了网页快照链接的bug,由于某些被检索的网页没能生成快照,导致空链接异常。加入了索引时间显示。
(3)页面编码:修正了原始页面乱码的问题。
关于附件搜索
Nutch自身已经集成好了各类附件的搜索功能,支持的附件格式参见nutch的plugins目录下的parse-*文件夹,凡是有以“parse-**”命名的文件夹,那么表示nutch支持“**”格式的文件的检索和解析,但是还需要修改nutch的配置文件以使nutch对对应格式的附件进行索引。具体修改方法:修改nutch目录下conf以及webapps下的nutch/web-inf/classes下的:
# skip image and other suffixes we cant yet parse
-.*\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|mpg|gz|rpm|tgz|mov|MOV|exe)在此行去掉需要被检索的附件的文件格式;
并在nutch-default.xml中修改:
property
nameplugin.includes/name
valueprotocol-http|urlfilter-regex|parse-(text|html|js|msword|mspowerpoint|msexcel|pdf|swf|zip|rss)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|analysis-(zh)/value
……
/property
以及nutch-site.xml和webapps下的nutch/web-inf/classes中的nutch-default.xml和nutch-site.xml中的对应属性。
需要注意的是,附件在网站中的页面深度一般比较大,所以对索引的深度要求较高,其次,附件文件比价大的话,对于爬虫的抓取资源的效率的影响是比较大的。
关于摘要长度
摘要长度的修改只需要修改nutch/conf下的nutch-default.xml和webapps下nutch/web-inf/classes中的nutch-default.xml文件:
property
namesearcher.summary.length/name
value150/value
description
The total number of terms to display in a hit summary.
/description
/property
修改value的值就可以。
关于简繁体
基于目前集团网站均采用的是页面端进行的简繁体转换(通过js转换,nutch的爬虫只能抓取url请求默认返回的内容,故翻译出来的繁体无法被检索),同时又有部分内容(比如附件)中包含有繁体内容,nutch作为搜索引擎本身是支持能被索引的资源(包括简繁体)的索引,所以当前的解决方法是在搜索页面提供简繁互转操作,并提供繁体搜索功能。
简繁互转:实现按照简体关键字返回的结果页面内容的简体和繁体互转。满足对网站简体内容繁体查看的需求。(具体操作为页面上的转换为“切换到简体/切换到繁体”)
繁体搜索:提供对搜索的关键词繁体转换后的搜索。(返回索引中带有繁体的内容的结果)
关于中文分词
由于nutch本身支持中文搜索但是汉字的差分是单字拆分的原则,所以单字对于检索结果的排序以及返回的结果集都有很大的影响,比如关键词为“信息管理”,nutch的分
您可能关注的文档
- OPPC的应用.doc
- 2012春七年级地理第三次月考.doc
- 2008年师德师风工作计划.doc
- 第三次月考数学卷2010.12.10.doc
- 畅谈酒店节能降耗.doc
- JavaWeb原理、开发及应用技术-专题培训会.ppt
- 足球阶段训练计划.doc
- 新整理四年级绿色呼唤gdkj.ppt
- 语音识别模块rsc300.doc
- 长期投资练习2.doc
- 《GB/Z 44363-2024致热性 医疗器械热原试验的原理和方法》.pdf
- GB/T 16716.6-2024包装与环境 第6部分:有机循环.pdf
- 中国国家标准 GB/T 44376.1-2024微细气泡技术 水处理应用 第1 部分:亚甲基蓝脱色法评价臭氧微细气泡水发生系统.pdf
- 《GB/T 44376.1-2024微细气泡技术 水处理应用 第1 部分:亚甲基蓝脱色法评价臭氧微细气泡水发生系统》.pdf
- GB/T 44376.1-2024微细气泡技术 水处理应用 第1 部分:亚甲基蓝脱色法评价臭氧微细气泡水发生系统.pdf
- 中国国家标准 GB/T 44315-2024科技馆展品设计通用要求.pdf
- GB/T 44305.2-2024塑料 增塑聚氯乙烯(PVC-P)模塑和挤塑材料 第2部分:试样制备和性能测定.pdf
- 《GB/T 44315-2024科技馆展品设计通用要求》.pdf
- GB/T 44315-2024科技馆展品设计通用要求.pdf
- GB/T 39560.9-2024电子电气产品中某些物质的测定 第9 部分:气相色谱-质谱法(GC-MS)测定聚合物中的六溴环十二烷.pdf
文档评论(0)