基于Nutch海关主题搜索引擎研究与设计.docVIP

下载本文档

1
0
约4.16千字
约 9页
2018-06-21 发布于福建
举报
版权申诉

基于Nutch海关主题搜索引擎研究与设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Nutch海关主题搜索引擎研究与设计

基于Nutch海关主题搜索引擎研究与设计　　【内容摘要】运用Nutch搜索引擎技术开源和完整网络搜索的设计思想，构建了基于Nutch的海关情报资源主题搜索引擎系统模型，分析研究了系统各功能子模块的主要作用和功能整合方案，并提出了系统实施运行的相关技术路线；从而较好地解决了海关系统目前尚无专业化的主题搜索引擎的问题，实现了在统一的技术平台进行海关情报和文献资源的全文检索，为各级海关用户提供了一个方便、快捷、准确地获取情报信息的有效工具。　　【关键词】Nutch 海关主题型搜索引擎统一检索　　海关系统不断加大科技和资金投入，陆续开通了各级海关门户网站及海关统计咨询网、中国通关网、电子口岸数据中心网等专业性站点。这些站点为宏观经济和社会各界提供海量的资讯和详尽的统计数据。同时，与外界物理隔绝的海关内部业务网站也在关际交流、学术研究、互助协作方面起到了积极作用。　　无论从海关内部的业务协作、科学研究的角度，还是从海关外部对海关资讯、统计数据的检索需求角度考虑，都需要寻求一种有效的手段以便从海量信息中获取有价值的信息。　　目前，通用型搜索引擎的内部排序算法和商业化的竞价排名机制决定了搜索结果的准确率不是很高，且涉及领域太广，需要用户的二次筛选。尤其在海关领域的查询上，更显得不够深入和专业化。因此，社会和海关内部都迫切需要一个以海关为主题的专业化搜索引擎。　　一、相关概念　　1.搜索引擎　　搜索引擎，简而言之，是现代信息检索技术在大规模文本集合上的实际应用。从1993年诞生第一个搜索引擎Excite至今，搜索引擎已经进入到第四个发展阶段，即面向主题的搜索引擎。所谓主题型搜索引擎，就是以构筑某一专题领域或学科领域的网络信息资源库为目标，智能地在网络上搜集符合设定专题或满足学科需要的信息资源。一个搜索引擎在一个主题下的主题度越高，证明这个搜索引擎越贴近这个主题，用户就越容易找到跟这个主题相关的资料。　　2.Nutch 　　Nutch是一个基于Lucene、开源的、Java 实现的完整网络搜索引擎解决方案。Nutch基于Hadoop的分布式处理模型可以保证执行效率；同时拥有类似Eclipse的插件机制，足以保证系统良好的适应性，而且很容易集成到客户的应用之中。　　3.采用Nutch构建主题型搜索引擎的优势　　（1）透明度好　　与商业化搜索引擎不同，Nutch是开放源代码的，任何人都可以查看并修改其排序算法。因此 Nutch 对学术搜索和政府类站点的搜索来说，有着更好的透明性，比较适合专业化和学术研究的要求。　　（2）扩展性强　　Nutch是非常灵活的，可以按需定制并集成到相应的应用程序中。如借助Nutch 的插件机制，可将Nutch作为一个搜索个性化信息载体的搜索平台。根据海关主题型搜索引擎的检索需求，将其集成到海关主题型搜索引擎的主页，即可实现为用户提供具有针对性的搜索服务的目标。　　（3）性价比高　　使用Nutch本身并不需要支付任何费用，在以最小的成本运作的前提下能够做到：每个月抓取几十亿网页；为每一个抓取到的网页维护一个索引；对索引文件进行每秒上千次的搜索；提供高质量的搜索结果。　　二、系统模型　　面向海关主题的网络爬虫的设计思路是：以Nutch的crawl为基础，对crawl进行功能上的限定并明确其运行的范围，即根据目标用户的需求，将面向海关主题的web信息提取限定在已知的、正式上线的官方网站站点内，以此作为URL集合，实现对面向主题的信息的自动采集；获得链接数据后，通过主题筛选和分析建立全文索引库；用户对索引库进行检索。系统大致可以分为三个层次：　　（1）数据层：将URL集注入crawldb数据库，根据crawl- 　　db数据库创建抓取列表，执行“创建列表/抓取网页/更新数据库”的循环直到完成抓取。　　（2）中间层：根据抓取的网页所生成的片段内容更新链接数据库，再进一步建立全文索引　　（3）应用层：用户通过用户接口进行查询操作，通过Tomcat服务器将用户查询转化为lucene查询，最后返回结果。　　三、功能模块及实现路径　　1.抓取　　（1）建立初始URL集　　初始URL集的建立有两种方式：超链接和站长提交。本系统拟采用站长提交模式：即通过管理员建立以海关站点为主题的web地址集作为初始URL集，搜索引擎经过核查之后，便将该类网站URL加入到crawldb数据库中，进行抓取。　　（2）注入（inject）　　inject操作调用的是Nutch的核心包之一crawl包中的类injector，其主要作用是：将URL集合进行格式化和过滤，设定URL状态为：未抓取（UNFETCHED），并按照一定方法进行初始化分