- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
第25卷第5期 河池学院学报 V01.25No.5
2005年 10月 JOURNALOFHECHIUNIVERSITY Oct.2o05
计算机主题搜索引擎研究
潘常春
(柳州师范高等专科学校 信息技术系。广西 柳州 ~5003)
[摘 要] Web信息的急剧增长使搜索引擎专用化成为发展趋势。在此重点论述 了主题搜索引擎的信息采
集策略,并给 出了一种计算机主题搜 索引擎设计方案。
[关键词] 主题搜索;主题智能机器人;搜索引擎;计算机
[中图分类号] TP391.43 [文献标识码] A [文章编号] 1672—9021(2005)05—0040一o4
[作者简介] 潘常春(1972一),女(侗族),柳州师范高等专科学校信息技术系讲师,主要研究方向为计算机
应用技术。
随着 Internet信息急剧膨胀 以及信息多元化的发展,用户迫切需要一个数据分类细致、精确、全面、更新
及时的面向主题的搜索引擎来获取主题资源信息。主题搜索引擎面向某一特定的专业领域,保证了对该领
域信息的完全收录与及时更新 。
主题搜索引擎具备有效的信息采集策略,基本回避了通用搜索引擎信息指数膨胀的危机,在索引信息的
更新周期上也大大加强,通常能在 1至2天内提供更新的网上专业领域信息查询,甚至能根据优先划分等策
略在数小时内更新查询信息 。
目前主题搜索引擎模式发展正处于高速发展时期,NEC公司推 出的网上免费科学论文搜索引擎 CiteSe—
er可能是因特网上使用最广泛的科学论文检索系统。2001年ElsevierScience发布了科学信息搜索引擎Sci—
rus,国内主要的主题搜索引擎有赛迪网(WWW.ccinnet.corn)推出的中文 IT垂直搜索引擎 “IT罗盘”,慧聪网
站(WWW.huicong.com)推出的行业搜索等,各种专业搜索引擎正大量出现。本文在介绍主题搜索引擎的基
础上,重点探讨了主题信息采集策略,并给出了一种比较理想的计算机主题搜索引擎设计方案。
1 主题信息采集策略简介
在主题搜索引擎中,采集器(Robot,也称 Crawler)从 www 中采集 回来的数据需要经过进一步处理 (保
留主题范围内的网页,丢弃范围之外的网页)然后再进行索引。现有的基于Client/Server模型上的针对文本
的主题搜索策略主要有人工预选策略、先采集后过滤策略以及最佳搜索策略三种[4]。
1.1 人工预选策略
对于主题型搜索引擎,某些站点的主题可能在其范围之内,对这类站点的访问频率应该比其它站点高
些。首先人工(搜索引擎管理员)预先浏览各个站点,从中选出与主题相关的网站,然后派发出一个或几个
ROBOT专门负责对这类站点进行持续的访问,再用其它的ROBOT去遍历整个 WWW。或者只在选出的与
主题相关的网站范围内采集页面。人工预选站点时还可以先请计算机主题专家提供一组特征值集作为权威
的主题关键词,用这组特征集到原搜索引擎中检索出对应的网页作为采集信息的范围。另外还可辅以用户
提交站点的方式,经管理员验证后加入待访问的URL列表中。
该方式控制信息采集更新的网站范围,保证信息来源的专业性和相关性。这是比较简单、有效的控制方
法,但是需要人工干预,采集信息的局限性强。赛迪网的 IT罗盘搜索引擎就是限制在几个专业网站的范围
进行检索。
1.2 采集后过滤策略
40
维普资讯
搜索机器人依次将各个www 网站上的页面信息采集到搜索服务器上。在搜索服务器上通过主题分
析程序进行页面过滤,删除不相关页面,保留与主题相关的页面。 。
这种方法采用文本分类或者过滤的数据挖掘方法,只选取主题相关信息进行索引和提供检索。其工作
特点是:可实现程序控制,不需要人工干预;采集网站上所有页面,信息传输量大;采集页面后,如果判定页面
文档评论(0)