网络信息检索的工具..docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络信息检索的工具[摘要]搜索引擎是人们使用In ternet信息资源的重要工 具。本文对目前的中文搜索引擎进行了简要的分析,指出了其存在的缺陷和发展的 方向。[关键词]信息检索中文搜索引擎 存在的问题 发展方向 随着 In ternet信息资源的迅速增长,如何在浩瀚的信息海洋中准确、方便、快速地找到 自己所需的信息,成了迫切需要解决的问题,从 1995年开始出现的信息检索工具 ――搜索引擎很好地解决了这一问题。然而各种搜索引擎,特别是尚处于发展初期 的中文搜索引擎还存在着很多的缺陷有待改进,本文旨在分析目前中文搜索引擎存 在的主要问题,并为解决此类问题提出一些建议和方法。 一、搜索引擎的概 念和及类型 搜索引擎又称检索引擎,是指运行在In ternet上,以信息资源为对 象,以信息检索的方式为用户提供所需数据的服务系统,主要包括信息存取、信息 管理和信息检索三大部分。 目前,中文搜索引擎主要有三种类型:分类目录 式搜索引擎、全文搜索引擎和元搜索引擎。 1?分类目录式搜索引擎。分类目录 式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某 个web站点后,对该站点进行描述,并根据站点的内容和性质将其归为一个预先 分好的类别。由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准 确度较高,导航质量也不错。但因其人工的介入,维护量大,信息量少,信息更新 不及时都使得人们利用它的程度有限。国内著名的新浪、搜狐、中文雅虎都属于这 种类型。 2.全文搜索引擎。这是一种目前运用较广泛的搜索引擎。国内以百 度,google天网为代表。它是使用自动采集软件 Robot,搜集和发现信息,并下 载到本地文档库,再对文档内容进行自动分析并建立索引。对于用户提出的检索要 求,通过检索模块检索索引,找出匹配文档返回给用户。 全文搜索引擎具有 庞大的全文索引数据库。其优点是信息量大,范围广,较适用于检索难以查找的信 息或一些较模糊的主题。缺点是缺乏清晰的层次结构,检索结果重复较多,需要用 户自己进行筛选。 3?元搜索引擎。元搜索引擎是一种调用其他搜索引擎的引 擎。它是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的 搜索引擎来实现检索。中文元搜索引擎开发较少,较成熟的则更少,万纬搜索是目 前有一定影响的中文元搜索引擎。其他的典型代表有 infospace, dogpile,vivisimo 等。 二、现阶段中文搜索引擎存在的主要问题 2?查全率不高。查全 率是指检索出的相关信息量与存储在检索系统中的全部相关信息量的百分比, 是判断检索系统质量的度量之一。 国内绝大多数的网站组织的信息大多都是 通过浏览方式获得内容。即使是经过精心组织、编排非常合理的网站,也会有 70%?80%的网页不能被搜索引擎检索到。中文目录式搜索引擎因需人工介入、维 护量大,在这方面表现较明显。 3?查准率较低。查准率更是判断检索系统质量 的重要尺度。是指系统所检索到的真正与查询内容相关的文档占检索出的所有文档 数的百分比。 造成查准率低的原因是,部分搜索引擎的分类体系与科学知识 体系之间缺乏内在联系;类目之间逻辑关系模糊,导致检索路径与搜索引擎类目错 位;信息加工深度不够;检索功能单一;检索词的专指性较差;大部分的检索结果 是题录式而非全文式,其内容简单等等。机器人搜索引擎的分类和索引缺乏人工的 参与,其查准率不如目录式搜索引擎,且检索结果中还含有大量的重复、虚假的信 息。 4?专业性的搜索引擎发展迟缓。专业性的搜索引擎是为专门收录某一行 业,某一主题的信息而建立,能够提供专题信息查询服务的搜索引擎。目前中文搜 索引擎大多是综合性的,能同时收录各行业、各学科的多种信息,但在反映某一行 业或某一专题的信息方面很难做到全面、精确,不能给用户提供特定的信息服务。 这就使得专业人员,特别是某一领域的学者、专家不愿意利用中文搜索引擎去查询 资料。 5?检索功能方面存在缺陷。一是检索中符合布尔逻辑运算符的搜索引擎 极为有限;二是关键词检索输出的结果相关度排序方式杂乱,不能根据用户需要来 选择信息输出的方式;三是多数的搜索引擎是面向主题搜索不是面向用户搜索,不 能重复利用用户检索过的成果,更不能对特定的用户进行定题跟踪服务;四是检索 网站的主页不规范,有些太简,有些又太繁,而且广告内容太多,无法进行有效检 索。 三、中文搜索引擎的发展方向 1?提高查全率。首先是需要开发分布 式的系统。这种系统可以把各个接点当作是新的信息资源,扩大数据库的规模,正 在兴起的元搜索引擎属于这种系统,它在接受了用户的查询命令后,可同时用多个 搜索引擎进行查询;二是把专业数据库资源纳入自己的检索范围。除了 Web信息 资源外,网上还有大量的非 Web信息资源,如联机检索系统、

文档评论(0)

yusuyuan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档