大海捞针亦有道-智能技术与系统国家重点试验室信息检索课题组.pdf

大海捞针亦有道-智能技术与系统国家重点试验室信息检索课题组.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大海捞针亦有道-智能技术与系统国家重点试验室信息检索课题组

大海捞针亦有道 ——中文信息检索技术的现状与挑战 在知识经济与信息化蓬勃发展的当今时代,信息与知识的占有和利用程度, 越来越成为衡量一个国家和民族进步和发展水平的重要标准。 为了解决信息资源利用的问题,将传统的情报检索技术与计算机应用实际相 结合的现代信息检索系统应运而生。信息检索系统的目的,是快速、准确和最大 程度地从海量信息资源中定位并获取高质量的相关信息。 中文是联合国的工作语言之一,全球以中文为母语的人数有10 多亿,遍布 中国、新加坡、马来西亚、印尼以及世界各地的华人华侨地区。随着中国经济和 技术的发展,中文具有越来越重要的地位,中文文档特别是中文网页的数目也在 迅速增长。随之而来的,多种多样的中文信息检索工具也应运而生,中文信息检 索技术及其实现产品——中文网络搜索引擎的发展,已经为华人访问信息资源提 供了巨大的便利。最近的中国互联网络发展状况统计报告[1][2]指出,中国搜索引 擎用户已占互联网用户的95.2%,绝对用户数超过1 亿人,包括搜索引擎在内的 信息检索工具已经成为当今获取信息的主要手段之一。 从数据处理对象的角度分析,信息检索系统面对的处理对象则包括信息资源 与检索用户两方面的内容。对中文信息检索技术而言,中文信息资源与中文检索 用户的特点决定了其发展的方向,针对这两方面特点所进行的努力也构成了最近 三十余年来的中文信息检索研究的主线。 本文中,我们将首先针对传统信息检索与中文信息检索技术的发展历史进行 简单回顾;随后针对中文信息检索技术的若干关键问题与发展现状进行分析;最 后根据我们自己的理解,对中文信息检索技术的发展方向给出展望。 一、信息检索技术的发展 1945 年,在二次世界大战即将胜利之际,曼哈顿工程和美国自然科学基金 的创立人Vannevar Bush 提出了这样一个想法:在2010 年左右,世界上应该有一 种工具,它能够使人们最方便快捷的获取所有图书馆中藏有的知识,这个构想对 应的就是信息检索工具的雏形。在Bush 的支持下,自1950 年起美国政府就开始 了对信息检索相关研究的支持。1951 年,Calvin Mooers 首次提出了“信息检索 (Information Retrieval, IR )”这一概念,给出了信息检索的主要任务:协助信息 的潜在用户将信息需求转换为一张文献来源信息列表,而这些文献包含有对其有 用的信息。随着计算机技术的发展和迅速普及,信息检索作为应对信息爆炸问题 的主要手段而迅速发展起来,其研究领域也由最初的科学技术领域扩展到人类活 动的各个方面。 互联网的出现和计算机硬件水平的提高使得人们存储和处理信息的能力得 到巨大的提高,从而加速了信息检索研究的进步,并使其研究对象从图书资料和 商用数据扩展到人们生活的方方面面。伴随互联网爆炸性的发展,普通网络用户 想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索 网站便应运而生了。现代意义上的搜索引擎的祖先,是1990 年由蒙特利尔大学 学生Alan Emtage 发明的Archie 。虽然当时World Wide Web 还未出现,但网络中 的文件传输已经相当频繁。大量的文件散布在各个分散的 FTP 主机中,查询起 来非常不便,因此Archie 应运而生。随着WWW 的出现,搜索网站的查找对象 从单纯的文件扩展到网页。最早现代意义上的搜索引擎出现于 1994 年 7 月, Michael Mauldin 首次将网络爬虫程序与文本索引程序相结合,创建了现在仍在 提供服务的Lycos 搜索引擎(/ )。1995 年,斯坦福大学的两 名博士生,David Filo 和杨致远共同创办了基于目录索引结构的Yahoo!搜索引擎, 并成功地使网络搜索概念深入人心,从此搜索引擎进入了高速发展时期。 中文文本信息检索最早见于“748 工程”中的汉字情报检索。1974 年8 月, 我国启动了包括汉字通信、汉字情报检索和汉字精密照排研究在内的“748 工程” 科研项目。80 年代中期后,由于计算机处理能力的大大提高和应用的广泛普及, 中文文本信息检索的研究开始进入黄金期,各种汉字文本索引方法、检索算法以 及实用化系统开始出现,各种全文检索商用系统的出现就是这个阶段的成果,如 清华大学的《中国学术期刊(光盘版)》

您可能关注的文档

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档