- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
l nternet导航的关键技术
江福西 周旭 王朴
解放军体育学院君信科技中心 国防科技大学603教研室
【摘要】本丈主要讨论了在Internet网上建立导航的重要关键技术,包括信息搜
索引擎的实现策略,信息的自动标引, 信息的自动分类和快速数据库查询的支持.
自动分类
【关键词】搜索引擎WEB自动标引
一、概述
势头迅速增长,使得Intemet网本身成为容量十分巨大的信息库,对于一个普通的网络信息
素求者来说。从这个浩瀚的信息海洋中寻找自己所需要的信息,无异于大海捞针,信息资源
再好也就如同废物。如何帮助和指导网络用户从众多的网上信息中找到他们感兴趣的信息变
成为人们所关注的问题。在互连网上如何有效地管理、组织信息,为普通用户提供简洁方便
的信息检索手段,被称为Internet信息导航,是互连网上面临的研究课题,目前是通过建立
互连网信息导航站点来引导用户进行信息检索。九十年代中期先后出现了Yahoo、lnfoseek、
的成功。
导航系统要引导用户查询和检索信息,必须了解互连网上的信息状况和变化情况,并将
这些信息的线索分类存放在导航系统的本地数据库中,网上用户就可以从导航系统的数据库
中检索到所关心的信息的线索,从而找到信息源。因此,建立导航系统主要关键技术主要有:
①互连网上的信息搜索技术。②原始信息的标引和分类。⑤数据库设计④基于WEB的数据
库查询技术。
二、搜索引擎
导航系统要为用户进行Internet导航,必须尽可能多地了解互连网的信息分布,搜索引
擎就是为此功能而设计的。它就象一只蜘蛛在网上爬行,将互连网上的信息源源不断的送回
导航系统所在站点。再将这些信息进行标引分类处理,放入导航系统的本地数据库,以供网
上用户查询。
搜索引擎的设计是利用H1vrP协议访问互连网上的WEB服务站点,从这些站点上取回
HTLM页面文档,从页面中抽取分类信息,为用户的查询建立线索,而对其他的内容可做不
同的处理:如要支持全文检索,则需要保留大部分的字和词及它们在文中的位置信息:如仅
支持关键词和分类查询,则可丢弃大部分的文档内容。搜索引擎的设计的关键是采用什么样
的搜索策略才能使搜索引擎能够尽可能多地自动搜索到不同的WEB站点和站点内的不同页
面。我们知道,对于互连网上的每个WEB页面均有一个唯一的URL地址,它由两部分够成:
IP(站点)地址和页面的站内地址.通常在各站点的WEB页面之间存在着相互引用的指针
超链。因此可以有三种搜索策略:
· 按IP地址线性搜索备WEB站点。
· 按广度优先的方法搜索.
360 全田,}七届多媒诺;搏术.学术嘻吨5L论文集
· 按深度优先的方法搜索。
由于互连网上有很多站点不是WEB站点,线性搜索策略并不适用。对于同一站点内的
wEB页面之间,往往存在很深层次的链接关系,搜索引擎也无须搜索到最底层的页面,因此
我们认为按广度优先的方法进行搜索更好一些。所以主要讨论此方法。
用广度优先搜索策略实现的搜索引擎如图所示,搜索机取得一个初始搜索地址后,从该
站点的网页中取得超链地址,对本地地址搜索机直接沿超链获取该网页的HTML文档,送缓
冲池做预处理,对非本地的超链地址,将该地址与屏蔽地址表中的屏蔽比较,如果此地址不
是搜索网络范围内的网址,则将此地址放弃,否则,将此地址与近期已搜索的WEB站点地
址列表比较,如果此地址已被搜索过,其中对其引用计数值加l,形成下一次待搜索地址的
优先加权值。如此地址尚未被搜索过,则将此地址放入列待搜索的地址列表中以便搜索机以
后利用此地址去搜索相应的WEB站点。
搜索引擎结束的条件是待搜索的站点地址表空或用户强行结束搜索引擎的执行。
初始搜索地址的设定
(1)用户指定一个起始搜索地址在选定的网络范围内
(2)利用以前的有优先权分数的WEB地址列表
近期已搜索地址列表
近期已搜索地址列表用于保存本次搜索引擎已经搜索过的WEB站点地址的历史记录,
这些地址也可用于下一次数据库更新搜索时使用
己搜索地址列表的优先权排序:由于本次已搜索地址列袁可以被用做下一次数据库更新
全豳第七届多媒体技术学肃会苗悖仑,—|r
您可能关注的文档
最近下载
- 人教版四年级上册数学培优辅差计划.pdf VIP
- 比较思想政治教育(第二版) 001 比较思想政治教育(第二版) 第一章.pptx VIP
- 《声学基础》课件 .ppt VIP
- 2024-2025学年上海市陆行中学高二上学期9月月考数学试卷含详解.docx VIP
- 学校食堂从业人员培训资料全.pptx VIP
- 比较思想政治教育(第二版) 010 比较思想政治教育(第二版) 第十章.pptx VIP
- 2024版新教材九年级化学上册知识清单(教师版).pdf VIP
- 湖南省岳阳市临湘市第六中学2023-2024学年七年级上学期开学考试 数学试题.docx VIP
- 《计算机应用基础(第6版)Windows11+WPS Office》全套教学课件.pptx
- 比较思想政治教育(第二版) 013 比较思想政治教育(第二版) 第十三章.pptx VIP
文档评论(0)