- 1
- 0
- 约6.15千字
- 约 7页
- 2019-01-27 发布于广东
- 举报
基于Nutch的物流信息平台网页资源定向釆集系统.doc
基于Nutch的物流信息平台网页资源定向釆集系统
1研究背景
随着信息化建设的推进,各地物流信息平台相继展开建设。但相当一部分单位和地区互联网 信息应用水平较低,主要体现在以下儿个方面:
不知道互联网上哪些信息或网站対自己有用;
⑵知道了何用的网站信息源,但是又缺乏有效的获取这些信息的手段和软件;
无法対从网上获収的信息进行有效的管理,包括対信息的分类、存储和检索;
很多网站都存在内容少、更新慢等问题,一些物流科技、市场信息比较匮乏。
通过分析认为产生这些问题的原因主要有以下两个方面:
⑴大部分的单位计算机网络方面的人才相对比较匮乏,很多站点建立后对站点的技术维护 存在着诸多问题;
数据资源的采集完全依赖于人工上传和修改,操作人员只能通过网页和数据资源库的搜 索,将挑选@的信息资源通过逐步填写关键信息和上传全部资料内容的人式更新至后台数据 库,这种人工上传方式低效费时。
针对上述问题,木文捉出建立棊于Nutch的物流信息平台网页资源定向采集系统。
2Nutch简介
Nutch是一个开源的、Java实现的搜索引擎。它提供了运行自己的搜索引擎所需的全部工具。 作为一个搜索引擎,其基本组成也同其他搜索引擎一样。包括爬虫,索引和搜索三部分。其 工作流程如图1所示。其整个的工作流程可以分为如下几步:
⑴建立初始URL集;
⑵将URL集注人crawldb数据库-inject;
根据crawldb数据库创建抓取列表-generate;
⑷执行抓取,获取网页信息-Fetch;
更新数据库,把获取到的页面信息存人数据库中-updatedh;
重复进行3?5的步骤,直到预先设定的抓取深度,这个循坏过程被称为“产牛./抓取/更新” 循环;根据segments的内容更新LinkDB数据库-invertlinks;
建立索引,对每个Segment生成一个索引-index;
从这些索引中删除冗余的网页和URL;
⑼把所有这些小索引合并成一个人的索引,川來搜索;
川户通过川户接口进行査询操作;
将用户査询转化为Lucene查询;
(⑵返回结果。
其中:(1)?⑹属于爬虫部分,⑺?(9)属于索引部分,(10)?(12)属于查询部分。
3系统总体设计
3.1系统功能结构
基于Nutch的网页资源定向采集系统是物流信息平台后台管理系统的一个子系统。它作为本 地信息资源的提供者与物流信息平台的信息发布系统交互,为其提供信息资源。该子系统主 要实现如下功能:
以物流为主题的网贝资源的监控和获取。管理员用八通过后台提交主题关键词和初始种 子,山主题相关度分析模块和初始种子模块,根据主题关键字和种子网站将网络上的信息进 行过滤,然后通过爬虫模块根据一定的搜索策略将信息采集下來存储到木地索弓I库。对于 主题和关度的分析策略是重要的影响因素。
以物流为主题的信息检索。管理员用八通过发送查询请求,信息检索模块调用中文分词 模块対用户提交的关键词进行解析,封装成符合参数要求的检索式查询本地索引库,并将检 索结果捉交排序优化模块返回用户需要的网页记录集合。在为采集的网页建立索引存储的过 程中以及用户发送检索请求时,都会自动调川中文分词模块,中文分词模块根据嵌人其中的 词典进行分词和匹配,保证了返回结果的准确性。
⑶作为信息资源的提供者实现对网页正文的正确提収与人库。管理员用户根据网页检索结 果,选取冇价值的网页资源,向正文抽取模块捉出请求,由止文抽取模块完成对网页止文的 抽取并向数据库提交作者、來源、正文等元数据信息,实现网页止文的自动抽取与人库。 尽管Nutoh具冇较丰富的功能和相对完备的结构体系,直接将其应用于网页资源定向采集系 统是不适宜的。在Nutch现冇结构基础上,还需要针对特定任务需求进行修改和完善工作。
3.2系统体系结构
该系统的体系结构如图3所示。它的功能流程如下:利川Nutch的网络爬虫获取web网页, 并对其进行解析。每当获得一定数量的网页后就对这些获取的网页文档进行主题相关性判 断,如果该文档与主题相关,一方面反作川于网络爬虫,沿着该URL信息继续爬行;另一方 面把那些与主题相关的网页调用Nutch的索引器來建立索引,如果不相关则放弃当前的页 面,但是把该页面中的URL放人URL候选队列中川來爬取可能的主题页面。然后用户通 过搜索器进行主题搜索,对于满意的搜索结果调川止文抽取模块进行抽取人库。
颜色较深的模块是本文对Nutch重点改进的部分:
屮文分词模块:屮文分词模块在系统屮与信息查询模块、信息索引模块密切相关,它决 定了用户在检索时是否能够得到止确的结果,在Nutch基础上加人中文分词组件,以实现中 文分词功能。
相关度分析模块:主题相关度分析模块是系统的核心模块之一,它决定页面的取舍,通过 修改Nutch代码加入主题相似度判别功能,以实现对网页主题进
原创力文档

文档评论(0)