- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索评测技术概述
信息检索评测技术概述
信息检索评测技术概述2010-10-24 23:48信息检索评测技术概述
一、信息检索评测技术的发展
随着计算机的出现与普及,尤其是上世纪90年代互联网蓬勃兴起之后,人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的社会。目前,仅Google能索引到的网页就超过80亿个,图片超过10亿张。当信息的来源已不再是问题时,如何快捷准确地获取感兴趣的信息,就成为人们关注的主要问题。但互联网信息天生的异构、分散以及海量等特性对检索技术提出了更高的要求,各种信息检索、过滤、提取技术逐渐成为研究的重点。现在,以Web搜索引擎为代表的信息检索技术已经取得了很大成功,Google、百度、Yahoo!等搜索引擎已深入到大家的日常工作和生活之中,成为获取信息不可或缺的工具。
目前存在很多基于不同的信息检索技术发展而来的搜索引擎系统,对于同一个用户查询,这些系统返回的结果往往存在差异,由此产生了比较结果的问题。而基于主观使用感受的评价既不客观也不可靠,因此,必须发展出一套客观的评测体系,这种评测不受个别人主观感觉的影响,并且所作出的评价在通常情况下都能成立。在信息检索领域,检索系统的评价一直对系统的研究、设计与发展有显著的影响力。一般来说,这种评测研究的方法具有以下特点:明确的形式化研究任务、公开的训练与测试数据、公开的评测比较。它使得研究之间的比较更加客观,从而让研究者认清各种技术的优劣,起到正确引导研究发展方向的目的。
文本检索会议TREC
二十世纪九十年代,基于军事和反恐情报处理的需要,美国国防部高级研究计划署(DARPA)提出了TIPSTER文本处理计划,文本检索会议(Text REtrieval Conference,简称TREC)就是该计划的重要组成部分。1992年,在美国国防部高级研究与开发机构和DARPA的资助下,NIST召开了第一届TREC会议,以后每年举办一次,到2005年已举办了14届。TREC的组织者认为,对不同系统的比较,其意义并不在于要证明某个系统优于其他系统,而是要把更多不同的技术放在一起公开讨论,这对技术的发展有很大好处。于是,TREC自开办之初,就明确提出了四个目标:
1.以大规模测试集为基础,推动信息检索的研究;
2.通过建立一个开放式的论坛,使与会者交流研究成果与心得,以增进学术界、产业界与政府的交流互通;
3.通过对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品;
4.开发适当且具有实用性的评价技术,供各界遵循采用。
TREC发展到现在,已经成为备受瞩目的标尺性测试,对信息检索研究领域产生了巨大而深远的影响。今天,在TREC评测中名列前茅的算法往往成为大家研究的重点,很多商用搜索引擎所采用的核心技术就是那些被TREC证明成功的算法发展而来的。TREC论坛成为研究人员互相交流学习的重要途径,很多新的思想和方法正是从这里碰撞产生。TREC为新的热点研究提供了急需的数据和评价体系,促进了这些技术的快速发展。鉴于TREC的巨大成功,现在的众多评测,甚至其他研究领域的评测,如跨语言检索评测会议NTCIR、CLEF,机器翻译评测TC-STAR等,都或多或少受到它的影响。
国内相关研究
中文信息处理研究起步较晚,上世纪八十年代,还面临着汉字编码、分词等基本问题尚未解决的局面。九十年代,随着这些问题取得突破,中文信息处理技术取得了长足进展。此后,随着中文信息处理数据规模的膨胀以及国内外学术交流的增加,国内研究者逐渐认识到评测对于研究的促进作用。2002年,黄昌宁教授曾呼吁,为了推动中文信息处理的发展,让我们拿起评测这个武器,扎扎实实地研究其适用技术…没有统一评测的研究成果,终究不是完全可信的。同一时期,国内的相关研究机构开始尝试参加TREC等国际评测,并且相继取得了不错的成绩。但专门针对中文的测试项目的缺位使中文信息处理技术还不能得到有效检验。这种状况得到了国内的研究机构和科研管理部门的重视。经过大量的准备,国内相继召开了多个面向中文信息处理技术的评测会议,其中比较有影响的是863评测、全国搜索引擎和网上信息挖掘会议(SEWM)等。
二、信息检索技术简介
为了使读者对信息检索研究的进展有更深的了解,这里我们简单介绍一下信息检索技术的基本原理。信息检索系统流程大致如下图所示:
总体上,系统可分为四个部分:1.数据预处理,2.索引生成,3.查询处理,4.检索。下面我们分别对各个部分采用的技术加以介绍。
1.数据预处理
目前检索系统的主要数据来源是Web,格式包括网页、WORD文档、PDF文档等,这些格式的数据除了正文内容之外,还有大量的标记信息,因此从多种格式的数据中提取正文和其他所需的信息就成为数据预处理的主要任务。此外,众所周知,中文字符存在多种编码,比如GB2312、BIG5、Unic
文档评论(0)