1.2搜索引擎的概念、分类和评价标准-Read.PDFVIP

1.2搜索引擎的概念、分类和评价标准-Read.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.2搜索引擎的概念、分类和评价标准-Read.PDF

西北工业大学硕士学位论文 第一章绪论 于为用户提供一个利用关键词快速准确检索到目标文档的环境,其预期的特性如 下: 1.快速检索。为用户提供快速检索功能。 2.实时监控与自动更新。一旦文档发生改变,系统实时做出相应处理。并无 需人为监控,自动对关键词数据库进行更新。 3.自学习功能。系统能根据用户输入关键字,更新系统知识库。 4.自动分词提取关键词功能。根据文档内容自动提取出文档的关键词。 利用本系统来实现文档检索,不仅检索速度快,而且无需人工维护,并能随 着使用积累大量知识,为企业决策提供信息资源。 因此,研究和开发该系统,无论是在工程应用和实际应用中具有很高的价值 和意义。 1.2搜索引擎的概念、分类和评价标准 1.2.1搜索引擎的概念 搜索引擎技术是传统信息检索技术在计算机系统和网络环境中的应用。一般 来说,搜索引擎是一种用于帮助用户在工nternet上查询信息的搜索工具,它以 一定的策略在Internet中搜集、发现信息,对信息进行理解、提取、组织和处 理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎已经成为人们 进入Internet的 “门户”。而本文描述的搜索引擎使用于企业中,为企业用户提 供检索服务,是企业信息系统的 “门户o 1.2.2搜索引擎的分类 搜索引擎按照不同的分类方式可分为以下几种类型]1:[ 1.按照检索方式分为独立型搜索引擎和元型搜索引擎。独立型搜索引擎:拥 有自己的索引数据库,检索在自身的数据库进行,并根据数据库的内容提供有关 信息或连接;元搜索引擎(AMetaSearchEngineRoundup):获取用户提交的搜 索请求转换处理后提交到多个预先选定的独立型搜索引擎,将独立搜索引擎返回 3 西北工业大学硕士学位论文 第一章绪论 的查询结果集中起来,经过处理后再返回给用户(元搜索引擎只是概念上好听, 至今为止没有哪个检索的效果能另人满意的)。 2.根据搜索引擎的不同时期的关键技术和服务性能可以将搜索引擎分为三 代。第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于100万个网 页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待los 甚至更长的时间。在实现技术上也沿用较为成熟的IR(InformationRetrieval), 网络、数据库等技术,相当于利用一些已有技术实现的一个。 应用。大约在1996 年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作) 来提高数据规模、响应速度和用户数量,它们一般都保持一个大约5000万网页的 索引数据库,每天能够响应1000万次用户请求。自1998年到现在,出现了一个搜 索引擎空前繁荣的时期,一般称这一时期的搜索引擎为第三代搜索引擎。第三代 搜索引擎的发展有如下几个特点: *索引数据库的规模不断增大,一般的商业搜索引擎都保持在几千万甚至上 亿个网页。 *开始使用聚类技术。NorthernLight和Inktomi的DirectoryEngine都 在一定程度上使用了该技术。这一阶段的发展为搜索引擎拓展了生存空间,同时 提高了搜索的质量和效率,为以后的发展奠定了坚实的基础。 *除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的垂 直门户站点也开始使用该技术。 *由于搜索返回数据量过大,检索结果相关度(返回结果排序)评价成为研究 的焦点。相关的研究又可以分为两类:一类是对超文本链接的分析,在这方面 Stanford大学的Google系统和的Clever系统做出了很大的贡献;另一类是用户 信息的反馈,DirectHit系统采用的就是这种方法。 3.按照索引方式的不同可以分为目录系统和搜索引擎系统。第一类是目录系 统,它通过有专业知识的网页编辑人员对网上的网页进行精选,建立一个索引目 录,来给用户提供服务。这类系统的优点是提供的网页准确率高,但覆盖的范围小, 其典型代表是Yahoo。第二类是搜索引擎系统,它通过程序自动地从网上搜集和 分析网页,建立索引,为用户服务,其典型代表是A1taVista。这类系统的优点是 西北工业大学硕士

文档评论(0)

zcbsj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档