校园网搜索引擎分析的设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
校园网搜索引擎分析的设计.doc

类别 中小学信息技术 编号 校园网搜索引擎的分析与设计 内容摘要:随着Internet的迅速发展,校园网也不断发展,校园网中的信息量不断增大,我们在查找信息时也因其信息资源量大而不能很快找到所需的信息,所以一种基于校园网的搜索引擎也就应运而生了。而网络蜘蛛技术是搜索引擎的关键。本文围绕这一技术而展开。首先从搜索引擎的种类和原理整体分析了搜索引擎,然后研究网络蜘蛛这一技术,从网络蜘蛛技术的原理、一般系统结构、关键技术、技术实现等几个方面来分别分析、为设计校园搜索引擎作最基本的工作。选择.NET为设计平台,以C#语言编写程序。 关键词:搜索引擎;蜘蛛;超链接;爬取;URL 1.引言 随着Internet的快速发展,网络正在深刻地影响着我们的生活。而在网上发展最为迅速的WWW World Wide Web 技术,以其直观、简单、高效的使用方式和丰富的表达能力,已逐渐成为Internet上最重要的信息发布和交互方式。Internet上的数十亿的网页数量,这给人们带来了前所未有的丰富的信息资源。然而,Web信息的急速增长,在给人们提供丰富信息的同时,也存在信息量过大而导致人们不能很快找到自己所需信息的问题。因此,随之而来的就出现了搜索引擎,但搜索引擎在如此快速的Internet发展之下也面临很多挑战[2]: (1)Web上的信息种类繁多、丰富多彩使得搜索引擎能够检索的范围越来越小。 (2)Web是一个动态增长的信息源,随时会发生各种变化。 (3)搜索引擎面对的用户是形形色色的,这些用户的信息需求、知识背景、兴趣各不相同。 对于目前搜索引擎存在的各种不足及面临解决的诸多难题,如:如何跟上Internet的发展速度,如何才能提供更加方便易用的搜索服务,如何才能为用户提供更加精确的查询结果等等,都是未来很长一段时间内搜索引擎的发展方向。总的看来,其未来发展的趋势将主要体现在以下几个方面[1,4,29]: (1)专业化搜索:搜索引擎的专业化是为了专门收录某一行业、某一主题和某一地区的信息而建立,缩小了搜索范围,非常实用,如企业查询、行业信息查询等等。这种专业化的搜索引擎需要对专业知识专而精,并要求内容全面。 (2)个性化搜索:提高搜索精确度的另一个途径是提供个性化搜索,也就是将搜索建立在个性化的搜索环境之下,通过对用户的不断了解、分析,使得个性化搜索更符合每个用户的需求。 2.搜索引擎的分类及工作原理 2.1搜索引擎的分类 当前搜索引擎的分类方法有很多,因此分类出来的搜索引擎也很多。通常根据搜索引擎信息收集方法和工作方式的不同,现有的搜索引擎有以下三类:1.机器人搜索引擎;2.目录式搜索引擎;3.元搜索引擎[3,6,21]。 2.1.1机器人搜索引擎 机器人搜索引擎Web视作一个大型的全文数据库,利用几个关键词来表示一个网页,通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,Web页面标题和URL等信息,然后按一定的排列顺序将结果返回给用户国外具代表性的有Google、AllTheWeb等,国内著名的有百度(Baidu)。搜索引擎一种是拥有自己的程序,俗称蜘蛛(Spider)程序或机器人(Robot)程序IP地址范围的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库,搜索结果直接从自身的数据库中调用2.1.2目录式搜索引擎 目录式搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工编辑摘录核心信息,并将信息置于事先确定的分类框架中。由于目录索引只是一个按目录分类的网站链接列表,因此目录虽然有搜索功能仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。目录中最具代表性的Yahoo(雅虎。2.1.3元搜索引擎 元搜索引擎,即指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统,又称作搜索引擎之上的搜索引擎。元搜索引擎自身没有建立存储网页信息的数据库[7],而是将用户的查询请求同时传送至多个包含数据库的搜索引擎,并行地访问数个搜索引擎来查询这个关键词,然后对各搜索引擎返回的结果进行去重、排序等整理,最终响应给检索用户。严格意义上来讲,元搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。 目前,没有一个搜索引擎能涵盖整个Internet,各搜索引擎的收录范围又有所差异,因此这类元搜索受到了一定程度的关注,特别适合于对查全率要求高的查询。但是,不同的搜索引擎之间,建立索引数据库和执行提交检索的具体方法或规则并不相同,因此,大大影响了元搜索的检索效果。 2.2搜索引擎工作原理 搜索引擎的工作原理基本都是一样的[10],利用一个叫网络蜘蛛的程序在网络上爬行,自动

文档评论(0)

sjatkmvor + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档