- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Nutch框架农业信息垂直搜索引擎研究与设计
基于Nutch框架农业信息垂直搜索引擎研究与设计
摘要:针对当前农业搜索引擎存在的查不全、查不准、死链等问题,在分析中国使用率比较高的农搜、搜农、华农在线和中国农业信息网站等搜索引擎的基础上,提出了基于Nutch框架的农业信息垂直搜索引擎。该搜索引擎对农业词语进行分类,并构建专门的农业词典,提高查询速度。此外,基于Nutch框架的搜索引擎采用了改进的PageRank算法对网页进行排序得到权值最高的网页,呈现出具有价值搜索结果,达到初步的搜索结果的预期目标。
关键词:Nutch框架;农业搜索引擎;农业词典;设计
中图分类号:TP391.3 文献标识码:A 文章编号:0439-8114(2015)18-4603-04
DOI:10.14088/ki.issn0439-8114.2015.18.055
随着农业信息化的发展,农业信息出现了爆炸性增加的局面,搜索引擎成为了必不可少的搜索工具,是人们进行信息收集的必要手段之一。当前农业信息量达到了百TB量级,面对如此多的农业数据,如何快速、有效地获取个性化的农业知识和信息资源就成为了当前农业信息搜索中迫在眉睫的问题[1]。近年来,伴随着农业信息化的推进,各类的农业搜索引擎逐渐发展,虽然能够基本满足当前农业发展的需要,但还需要进一步发展专题农业信息检索。
1 农业搜索现状
目前,农业领域中已存在1万多个各类网站,网页数量超过200多万[2],刘艳华等[3]对谷歌、百度和中国搜农3个搜索引擎在农业领域中进行了分析对比,表明了综合搜索引擎在搜索功能、结果、信息量等方面存在明显的优势,但是在农业内容的专业化、内容时效性方面存在欠缺。
中国也有许多农业类搜索引擎,如农搜、搜农、华农在线、中国农业信息网站等搜索引擎。农搜网采用的是独特的智能页面技术,实现网页信息的结构化索引,将使用者所查询的结果以农业科研单位、农业专家人才、农业实用技术等分类呈现,实现了农业信息的大众化和个性化服务,为急需农业科技信息和市场信息的企业、部门、农户精确获取农业信息提供了有益的工具。搜农网采用的是基于网页主体内容的索引,其优点是加快信息的更新速度,提高信息的查全率和查准率,建立了全新的复杂自适应搜索模型,开发并部署了6 200多个软机器人承担WEB农业信息的采集、清洗、分类、聚类、排序、发布等系列工作,基本实现了WEB信息处理工作的自动化,代替了农业信息服务采、编、发等系列繁重的人工劳动,大大降低了农村网络信息服务成本。华农在线实现了在农业行业的垂直搜索应用,将起到整合现有互联网涉及的各类和各行业主管部门的农业信息资源;实现满足涉农人员的个性化信息需求;提供专业知识问答及其推送功能;组织农业专家答疑,开展学术论坛;建立农业物流、农产品价格、其交易平台及与外国交流的行业平台。
这些农业搜索引擎虽然可以满足用户的一般需求,但是也存在一些问题,查全率和查准率低以及存在死链的现象,使得用户搜索的结果不全面、不准确或网页打不开,难免会使用户受到其他信息的干扰或对搜索引擎的不满。张??[4]将Nutch搜索引擎应用到农业信息搜索中进行了初步的研究,将Nutch搜索引擎扩展到农业信息搜索中。本研究将Nutch搜索框架应用于农业信息搜索中,建立了基于Nutch搜索框架的农业信息垂直搜索引擎,并将当前农业词语进行分类,建立专业的农业词典,将网页农业信息进行精确分类,可以使用户得到更加准确和实用的查询信息。
2 Nutch搜索引擎
Nutch是Apache的项目之一,是以Java语言作为实现手段及开发工具,作为一个完全开源的搜索引擎包,广泛应用于局域和广域网络的搜索引擎,Nutch搜索引擎的流程(图1)。
3 农业搜索引擎的设计与实现
Nutch搜索引擎具有良好的框架结构,为农业搜索引擎的设计带来了便捷,在此结构基础上设计不同的插件,实现引擎的功能。本研究设计的整个搜索引擎分为信息过滤模块、信息抓取模块、中文分词模块、农业专业词典、索引存储模块和查询模块6大主要模块,如图2所示。
3.1 功能结构
根据当前农业发展和农业搜索引擎的现状,本研究提出了基于专业农业词典的搜索引擎,整个搜索引擎包含6个主要模块:信息过滤模块、信息抓取模块、中文分词模块、农业专业词典、索引存储模块和查询模块。其中,信息抓取模块、索引存储模块、查询模块是基于Nutch搜索框架中已存在的模块所实现的。根据农业搜索的专业主题要求设计开发了信息过滤模块、农业专业词典模块以及查询模块中排序算法的改进,能够更好地满足农业专题搜索的要求
3.1.1 农业信息过滤模块 该模块的功能是过滤农业网站中不相关网页和链接,爬虫会分析网站的URL,将URL当中的前后缀去除,提取出关键字。根据专业
文档评论(0)