轻量级自适应搜索引擎的设计与实现.pdfVIP

  • 0
  • 0
  • 约9.5千字
  • 约 6页
  • 2017-08-14 发布于天津
  • 举报

轻量级自适应搜索引擎的设计与实现.pdf

轻量级自适应搜索引擎的设计与实现.pdf

轻量级自适应搜索引擎的设计与实现 1 1 2 2 孙志东 ,潘懋 ,闫秋艳 ,席景科 1 北京大学地球与空间科学学院GSIS 实验室 (100871) 2 中国矿业大学计算机科学与技术学院(221008 ) E-mail:everestsun@126.com 摘 要:伴随计算机网络技术的迅速发展、互联网用户规模的急剧膨胀、Web2.0 个人服务 时代的到来,网络资源信息仍持续跳跃式增长,人们很难高效简捷的检索网络环境中如此离 散分布的海量信息。近年来,搜索引擎技术的发展在一定程度上解决了“Rich Data Poor Information”难题。本文介绍了一种建构在PC Windows 平台上的轻量级自适应搜索引擎的设 计方案,它主要由网络搜索器、web 页面索引器、数据检索器和用户交互等四部分组成,并 利用VC7.0 和动态网页技术实现了WIC(Web Information Collector) 系统。为了弥补传统搜索 引擎静态特性缺陷,系统采用了基于用户交互的反馈排序技术,使WIC 能够动态调整,具 有了一定的自适应能力。最后,通过实验证明了系统的可行性及其优点。 关键词:轻量级,自适应搜索引擎,反馈排序,网络机器人 1 引言 由于网络技术的迅速发展以及存储设备等硬件成本的急剧降低,互联网逐渐成为储藏信 息的“无限”空间,据1999 年《科学》杂志的文章《WEB 信息的可访问性》估计,全球网页 超过8 亿,有效数据超过9T,并且仍以每4 个月翻一番的速度增长[1]。如果人工检索8 亿 网页中,按照每分钟读一页的话,不包括网络传输时间,也要1520 多年。可见,互联网就 像是杂乱无章的百科全书,如果不借助信息搜集服务商,人们很难驾驭它。 搜索引擎(Search Engine)正是为了解决“Rich Data Poor Information”[2]难题而发展起来的 信息搜索技术。它通过搜集网络上各种资源,对信息进行处理、分类标记,从而起到信息导 航的作用。根据信息搜索方式的不同,可以将搜索引擎分为三种:目录式,机器人搜索和元 搜索[1] 。用户只需要向搜索引擎提交查询关键词,然后借助中间层的搜索引擎就可以发现拥 有自己需要信息的站点,搜索引擎也因此被誉为“进入互联网的门户”,中国互联网络信息中 [3]表明85.4%的用户通过搜索引擎发 心(CNNIC )第十六次中国互联网络发展状况统计报告 现新网站。 我们设计开发了一个基于机器人 Robot 的轻量级自适应搜索引擎系统-- WIC(Web Information Collector) ,它的工作机制是网络机器人(Robot )根据网页中超链接(Hyper Link ) 所形成的有向网络拓扑图,以一定的策略获取可访问所有网页,然后对各种网页文本进行噪 音过滤、内容提取、组织索引并储存,然后通过简单的交互界面为用户提供简捷、快速的检 索服务。同时,系统将用户对搜索结果的点击序列等信息作为反馈,然后搜索引擎动态调整 输出,以发现用户的真正需求,使其具有了自适应能力。 2 WIC系统模型设计 WIC 系统主要包括网络搜索器、web 页面索引器、数据检索器和用户交互等四部分组 成,如下图所示: - 1 - 控制器 URL 列表 互联网 Robot 搜索器 提取URL

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档