- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于网络信息检索文献综述
第 PAGE 2 页 共 NUMPAGES 5 页
关于信息检索文献综述
作者:蒋亚宾
摘要:
本文通过对信息检索的历史发展、现状分析以及发展趋势做出总结与分析,已达到对信息检索的更深层次的认识,并希望在信息检索方面对读者有所帮助。
关键词:信息检索、历史发展、搜索引擎、发展趋势
1、前言
信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。相当于我们所说的信息查询(information search)。根据检索手段的不同,分为手工检索、计算机检索(光盘检索、联机检索和网络检索);根据检索对象、形式的不同,分为文献型信息检索、数据型信息检索、事实型信息检索。本文通过对以往关于信息检索的文献进行综述,并从中总结出观点,达到对信息检索更深层次的认识。
2、历史发展
1950年,莫尔斯(Calvin N.Mooers)首次提出信息检索(Information Retrieval)一词。其后,随着信息检索理论和实践的更新发展,人们对信息检索的认识也在不断深入。主要存在三种角度的认识: 时间性通讯、信息处理和文献查找。从时间性通讯角度来看,通过信息检索得到了一些文献,从而使得著者与读者(信息检索的用户)之间建立起了一种通讯。从信息处理角度,信息检索的基本问题,是如何处理信息和信息的结构。从文献查找角度看,信息检索就是查找出含有用户所需信息的文献的过程。在信息检索领域,这是一种传统的主流观点。
从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档。检索模型为基本的布尔模型和向量空间模型。Cornell University的Prof. Salton成为这个领域的先驱,著名的IR向量空间模型的创始人,开发了著名的SMART向量空间模型IR系统,并免费开放源代码,大大促进了IR的发展。80年代,IR技术出现在大型文档数据库中。90年代,可以在互联网上利用Archie对FTP服务器上的文档进行搜索。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。1994年4月,Stanford两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。1995年发布AltaVista,它是网上最早的爬行搜索引擎。AltaVista搜索技术从纯文本搜索技术开始,到1997年,其搜索能力扩展到25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一个时代。第一代搜索引擎指主要依靠人工分拣的分类目录搜索,这种方式是被动的搜索,更新慢、搜索能力不足。
3、现状分析
如今最主要的信息检索是网络信息检索。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。
但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3)网络信息日新月异的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎不
原创力文档


文档评论(0)